Google将增加语音识别翻译功能 挑战 Skype

来源:pingwest,blogs.skype.com,wired.com 作者: 时间:2015/01/12

 摘要: 上个月,微软旗下的Skype披露了一套关于实时人声翻译的系统。紧接着,Google着手推出它的新版本。 纽约时报报道,Google即将发布Android系统中Google翻译app的新版本。此版本的更新包括系统自动识别流行语的语音,并且能够转换为文 本。




全世界共有超过 6000 种语言,科技巨头们正在尝试用新技术弥合人与人之间的沟通障碍。但是,就目前来说,机器翻译的体验实在是不太尽如人意。


上个月,微软旗下的 Skype 推出了一项“实时翻译”的功能,英语和西班牙语的用户交流时,Skype 会自动翻译,并语音播送。该翻译系统运作原理如下:首先,把你的实时语音转换成文字;然后,再把文字翻译成另一种语言的文字;最后,把文字转换成语音。其中的重大突破在于,解决了业界棘手难题——识别实时语音并转换成文字。


如今,类似的功能也成为 Google 要攻下的城池:移动应用 Google Translate 将增加支持语种达 90 种,同时针对个别语言支持“语音翻译”——用语音输入 A 语言,应用翻译出 B 语言的文本。



当然,目前类似产品的翻译效果或许并不如你所愿,有业界人士发表体验感言称,即便是纯文本版的 Google Translate 也常常伴生着语法、语序的错误。而Skype 的实时翻译同样如此,从其宣传片的使用演示中看,这项功能要配合耳机,整个过程仿佛是两个接线员在用对讲机。


目前,包括 Google Translate在内的机器翻译,局限性在于机器算法和语言文学性的差异。机器翻译无法提供准确的译文,它经常忽略语境、上下文来翻译词汇,也并不遵守语法。机器翻译,现在仍然处在“词典”的阶段。机器翻译算法基于统计分析,重在翻译效率而非准确性,但是语言本身具有“人性”,包括语法、语义、情感都无法被算法翻译。


尽管如此,人们还是迫切的需要翻译应用。Google Translate 的下载量已经超过 1 亿,月活跃用户达到 5 亿。机器翻译的背后是一个巨大的市场。包括 Facebook、微软在内的巨头都进行着翻译机器的项目。



可以预见,未来的机器翻译,会在准确性上大大提升,这就依靠一个庞大的数据库,来使机器翻译不断完善,让机器更加理解人。在形式上,未来的翻译也将更为智能化,比如即时翻译,类似现在的人工同声传译。Skype 的实时翻译虽然在效率上有待提高,但是却提供了一个奇妙的前景,机器翻译的最终使命,就是消除语种的差异。


以数据和算法嵌入模式做翻译,让翻译系统能随着数据的积累而不断地完善改进,但是这又产生了一个新的问题——如果数据库积累的用户语言内容和用户习惯,势必涉及隐私。


语言研究机构 Hypervoice Consortium 表示,仅仅有 1% 的用户愿意贡献自己的使用数据,来帮助翻译机器学习。大多数的用户则希望,翻译机器就像 Siri 一样,将数据封闭,只为自己服务。


背景链接:

Skype实时语音翻译以及“语音识别翻译”发展近况


近几年来,语音识别技术依靠深度神经网络(deep neural networks)取得了不少进展。神经网络在八十年代就已出现,但真正开始焕发光芒是在2012年,Google让计算机能够“自我修养”——在一堆视频里自主学习并总结出猫的概念。


微软研究员John Platt在接收wired采访时曾表示,微软其实很早之前就开始利用神经网络改善平板电脑的手写识别精确度了。而Skype实时语音翻译系统真正的突破在于识别不同用户间的不同语言不同口音的说话方式。


这一突破发生在2009年的圣诞节,当时微软在英国哥伦比亚赞助了一个小型研讨会,来自多伦多大学的演讲嘉宾Geoff Hinton介绍了自己研究的一种模仿脑神经工作原理的机器学习模型,这一模型依靠多层次的人工神经元,让机器逐渐理解更加复杂的概念。微软听完介绍后,随即砸下一笔巨款,让Hinton的模型可以利用最新的图形处理器单元进行测试。测试的结果很棒,语音识别的精确度提升了25%。


Skype的机器学习原型通过预览阶段的大量数据进行训练,并优化语音识别(SR)和自动化机器翻译(MT)任务,这些优化包括去除语句中的不流利成分(比如“ahs”、“umms”和重复性的语言)、把文本分段成句子、增加标点符号、文本的大小写等等。


其中,语音识别和机器翻译的训练集数据主要有多个来源,包括已翻译的网页、带字幕的视频、翻译转录的一对一对话内容等。此外,很多志愿者向微软贡献出的语音对话也是一个非常重要的训练集数据来源。同时,Skype的翻译系统还会记录用户的对话内容,实现二次利用,以进行数据分析,加以学习。


在数据进入系统之后,机器学习软件会为对话中的单词建立统计模型,当你说到某一个东西时,系统会在统计模型里寻找类似的单词,并响应之前做过的类似的翻译。实时语音翻译对用户对话的环境很敏感,稍有噪音干扰可能准确度就会降低很多。这一方面,深度神经网络有效的减少识别错误率,改善了系统的健壮性,让实时翻译能够有更大的应用范围。


至于不同语言的文本翻译,Skype利用的则是和Bing翻译一样的引擎技术:语法和统计模型的结合使用,同时为特定语言进行特殊的训练。普通的文本翻译往往要求使用规范正确的书面语言,而Skype翻译系统不仅包括Bing翻译的引擎技术,还额外增加了一层口语化的语言业务。


此外,Skype还建立了一套自定义的串连整个流程的架构,以协调系统里多个部分间的运作。


0
分类:翻译业内动态 标签:Google翻译,增加,语音识别翻译,功能,Skype  | 收藏

评论:


关于我们 | 联系我们 | 商务合作 | 网站地图 | 诚聘英才 | 免责声明
中译语通科技股份有限公司 版权所有
Copyright © 2012-2019 www.yeeworld.com All rights reserved. 京ICP备13002826号-3
京网文[2017]5582-659号  京ICP证140152号
京公网安备 11010702001424号