7月11日消息,今天上午,为期三天的2017中国互联网大会在北京国家会议中心开幕。谷歌翻译研发科学家高勤发表演讲。主要讲述了谷歌翻译最近一年在神经网络翻译技术方面,所取得的最新进展,及谷歌的目标——利用机器学习消除语言障碍。
高勤表示,经过11年的发展,谷歌翻译现在提供超过100种语言互通,覆盖全球99%的网民,每天提供超过10亿次的翻译,大约相当于100万本书的文本总量。月度活跃用户超过10亿人次,其中95%来自于美国以外地区。
随着互联网大潮的到来,谷歌利用机器学习带来了许多全新的翻译体验,例如即时翻译、对话、离线支持、在任意安卓程序内翻译。高勤在现场用了一个例子,反映了谷歌翻译在质量方面,这一年内的进展。
神经网络相对于传统技术是一种革命性的改变。高勤说:“基于短语的统计机器翻译是离散、局部的翻译,但神经网络翻译则反其道而行,智能链接全网,可实现连续、全局的决策。”
从数据上来看,完美翻译为6分的话,神经网络翻译技术与非专业人工翻译差距极小,达到接近4-5分。
2015年起,这个项目计划计划历时3年发布,但高勤表示,谷歌在13个月达成了目标,这其中TensorFlow平台功不可没。
面对繁重的200个模型的训练与维护,谷歌选择了“多语言模型”,是指用同一套神经网络学习多种语言的互相翻译。只需要将目标语言代码通过特殊符号形式告诉神经网络,神经网络就可以处理多种语言的翻译,效率远超单语言情况。
利用TPU、张量处理器以及谷歌在机器翻译上多年的积累,谷歌在较短时间内发布了神经网络机器翻译模型,同时该模型也在业界和研究界掀起了研究的热潮。据统计,去年一年时间内,有200篇关于神经网络机器翻译的论文被发表,但高勤表示:“我们对神经网络机器翻译的认识依旧肤浅,它也仅仅是初露锋芒,没有达到性能的极限”
对于神经网络机器翻译技术,谷歌下一步将继续致力于改进数字、日期、姓名、品牌以及不常见短语翻译,同时进一步研究新的模型结构与训练方法。
最近谷歌大脑刚刚发布了完全基于注意力模型的新的模型结构,未来谷歌将继续投入对神经网络机器翻译的研究。
(责任编辑:程璐 HA010)