双流| 高平| 文山| 邹城| 曲水| 关岭| 烈山| 平湖| 宁县| 喀喇沁左翼| 竹山| 郧县| 敖汉旗| 靖安| 台安| 新干| 伊宁市| 科尔沁右翼中旗| 镇雄| 阳原| 阳东| 麦积| 零陵| 阿拉尔| 杂多| 礼泉| 建瓯| 普兰店| 淮滨| 廊坊| 凌云| 曲靖| 高明| 新泰| 黔江| 梁平| 滨海| 洛浦| 遵义市| 石狮| 正宁| 宜都| 屯留| 宁阳| 阜新市| 民勤| 安溪| 木兰| 修文| 连南| 上杭| 遂川| 云林| 茶陵| 西峡| 临武| 额济纳旗| 乐安| 丰顺| 容县| 赤水| 罗田| 炉霍| 盘县| 丰润| 黄岛| 柯坪| 花莲| 巴马| 黎平| 贞丰| 古浪| 木兰| 通渭| 寿光| 青海| 上虞| 科尔沁左翼后旗| 濠江| 崇义| 沙洋| 科尔沁左翼中旗| 秀山| 察哈尔右翼前旗| 建始| 牟平| 嵩县| 天峻| 沐川| 鹤山| 叶县| 广汉| 镶黄旗| 吴起| 宾县| 鲁甸| 太白| 永丰| 托克托| 大名| 伊春| 嵊州| 马边| 上海| 固原| 武城| 察哈尔右翼前旗| 韶关| 峨眉山| 德钦| 墨玉| 普洱| 略阳| 清徐| 尖扎| 珠穆朗玛峰| 宽城| 盈江| 美姑| 南宫| 左云| 万宁| 定陶| 鹰潭| 左云| 武陵源| 山亭| 鄂州| 浦口| 长兴| 黄石| 普定| 翼城| 潮南| 秭归| 榆社| 渭南| 科尔沁右翼前旗| 剑河| 葫芦岛| 嵩县| 布拖| 鄂州| 沁县| 万载| 乌兰| 阿荣旗| 江西| 尖扎| 德钦| 西乌珠穆沁旗| 东山| 盈江| 依兰| 长沙| 红原| 商洛| 大方| 化德| 黑龙江| 穆棱| 晴隆| 江川| 长宁| 秦皇岛| 漠河| 岳阳市| 新都| 大方| 开江| 吉木萨尔| 仲巴| 通江| 安达| 格尔木| 恩施| 仲巴| 花溪| 青浦| 应县| 鸡泽| 金山| 金华| 即墨| 和布克塞尔| 宜州| 泉州| 华宁| 上高| 奉节| 莲花| 小河| 达拉特旗| 汕头| 南江| 商河| 龙岗| 湖口| 巴东| 泗洪| 海淀| 潼关| 黄梅| 青阳| 夏邑| 仙游| 云县| 腾冲| 金山屯| 六合| 丰都| 应县| 库尔勒| 坊子| 射洪| 肇东| 冀州| 新兴| 义县| 阳朔| 北流| 新青| 蕲春| 济南| 淳安| 镇坪| 泰顺| 新县| 景谷| 汝南| 三台| 普格| 卢氏| 朗县| 常州| 图们| 浚县| 范县| 石林| 楚州| 牡丹江| 长宁| 蕉岭| 下花园| 鄂伦春自治旗| 阿勒泰| 怀宁| 独山子| 乌恰| 曲麻莱| 五峰| 登封| 久治| 易门| 抚顺县| 木垒| 湄潭| 庆安| 米林| 古县| 土默特右旗| 索县| 米易| 钟祥| 威尼斯人赌博网址
首页| 滚动| 国内| 国际| 军事| 社会| 财经| 产经| 房产| 金融| 证券| 汽车| I T| 能源| 港澳| 台湾| 华人| 侨网| 经纬
English| 图片| 视频| 直播| 娱乐| 体育| 文化| 健康| 生活| 葡萄酒| 微视界| 演出| 专题| 理论| 新媒体| 供稿

百度发布即时翻译“神器” 突破自然语言处理重大难关

2018-12-06 15:14 来源:中国新闻网 参与互动 
标签:能带 澳门新濠天地赌场网站 天红镇

  中新网10月24日电 人工智能领域,两种语言的“即时互译”是一项难以攻克的技术问题,其主要原因在于源语言和目标语言之间存在较大的词序和语序差异。近日,百度研发了具备预测能力和可控延迟的即时机器翻译系统,可实现两种语言之间的高质量、低延迟翻译。这是自然语言处理方面的重大技术突破,将对机器即时笔译和口译的发展起到极大地推动作用。

  机器同传利用语音识别技术自动识别演讲者的讲话内容,将语音转化为文字,然后调用机器翻译引擎,将文字翻译为目标语言,显示在大屏幕或者通过语音合成播放出来。相比人类译员,机器最大的优势是不会因为疲倦而导致译出率下降,能将所有“听到”的句子全部翻译出来,这使得机器的“译出率”可以达到100%,远高于人类译员的60%-70%。同时,在价格上也占有优势。

  在机器同传领域,百度联合语音技术、机器翻译技术,从语音识别、翻译质量、时延、融合领域知识等方面推出了“一揽子”解决方案。

  在语音识别方面,区别于传统的上下文相关建模技术,百度提出了上下文无关音素组合的中英文混合建模单元,包含1749个上下文无关中文音节和1868个上下文无关英文音节。该方法具有泛化性能好、对噪声鲁棒、中英文混合识别等特点。

  在翻译质量方面,提出了“语音容错”的对抗训练翻译模型,根据语音识别模型常犯的错误,在训练数据中有针对性的加入噪声数据,使得模型在接受到错误的语音识别结果时,也能够在译文中纠正过来。比如,语音识别系统将“大堂”错误的识别为“大唐”,这一对噪声词将被自动收录到训练数据中,并将源语言句子“我们在酒店大堂见面吧”替换为“我们在酒店大唐见面吧”,而保持目标语言翻译不变“Let's meet at the lobby of the hotel”,同时将这两个中文句子用于训练,进而获得具有更强的容错能力模型。

  为了降低时延提升翻译质量,人类译员通常对演讲内容进行合理预测,百度开发人员从人类译员身上获得启示,研发了“wait-k words”模型,可以根据历史信息,直接预测翻译中目标语言词汇。该模型在翻译质量和翻译延迟之间做出了很好的平衡,用户可通过根据实际需求设定延迟时间(例如延迟1(k=1)词或延迟5(k=5)词)。比如,法语和西班牙语这种较为接近的语言,延迟可设置在比较低的水平;但是,对于英语和汉语这种差异较大的语言,以及英语和德语这种词序不同的语言,延迟应当设置为较高水平,以便于更好的应对差异。

  在同声传译时,经常会遇到不同领域的专业知识,这就要求同传人员在短时间内吸收大量相关领域的内容,这对他们也是极大地挑战。基于此,百度模仿人类同传的准备过程,提出了快速融合领域知识策略。该策略依托百度海量的互联网大数据,训练得到的具有通用翻译能力的模型;当它接到某一个领域的同传翻译任务时,系统会收集该领域数据并在通用模型的基础上进行增强训练,得到相应领域增的强模型;最后对该领域术语库进行强制解码,使专业术语翻译得准确可靠,且提升翻译效率。

  作为对外开放和商业国际化的需求之一,同声传译被广泛应用于政府间的峰会、多边谈判和其他商业场合,但是同传人员稀缺也成为了当前的棘手问题。为了解决全球范围内同传译员人数少、费用高等难题,越来越多开发者专注于机器同传的研发,百度也希望通过研发高质量机器同传技术和系统解决即时翻译难题。

  虽然机器同传有了新的突破,但它与经验丰富的同传人员相比,依然存在一定差距。百度翻译技术负责人表示,同传的目的并不在于取代人类译员,而是为了降低同传成本,让同传的应用范围更加广泛,也希望世界各地的人在AI的助力下早日实现“无障碍”交流。

【编辑:陈海峰】
本网站所刊载信息,不代表中新社和中新网观点。 刊用本网站稿件,务经书面授权。
未经授权禁止转载、摘编、复制及建立镜像,违者将依法追究法律责任。
[京ICP证040655号] [京公网安备:110102003042-1] [京ICP备05004340号-1] 总机:86-10-87826688

Copyright ©1999- 2018 chinanews.com. All Rights Reserved

新兴机械厂 丰台西站 蝎子庙 国庆路 西乡
耕公田 士林区 粉塘 沙井村南 白塔乡
邙岭路街道 樟木镇 江下 西方 工业园区规划路
狮子营 翠微街道 鸟石隆 巴林左旗 矿山机械厂
网上澳门赌场 澳门线上正规赌场 澳门威尼斯人平台 澳门巴黎人网上赌场 立博博彩
巴黎人平台 澳门联合赌场网址 澳门百老汇娱乐平台 真钱牛牛 真人博彩评级