人工智能翻译曙光在前 小语种尤为任重道远

沟通

图像来源,Getty Images

图像加注文字,机器翻译技术虽有改进,但仍然会出现错误

手机翻译软件技术越来越强,但远远称不上完美,人工智能和深度学习能解决翻译误区吗?

今年夏天在俄罗斯举办的世界杯足球赛期间,谷歌翻译使用流量爆出一波高峰,因为从世界各地而来的球迷和俄罗斯人彼此沟通需要用到这个翻译软件。

谷歌的数据显示,世界杯期间所有的翻译词组当中,“体育场”和“啤酒”这两个字的使用量特别高。

在几乎人人手里都有一支智能手机的时代,谁还需要查找字典或外语常用语手册,有三分之二16至34岁的人出国旅游的时候使用手机翻译软件解决语言问题。

但手机翻译软件绝非完美,有五分之一的人出国旅游时因为手机翻译错误而导致沟通障碍或彼此误解,尤其是非主流语言的机器翻译技术仍未完善。

除了翻译问题之外,电脑程式还会出现技术错误,有网友就发现输入“dog”一词18次就会出现不知所云的英语翻译。

“低级错误”

那么,为什么在现在这个超级电脑和机器深度学习的时代,翻译还会出现一些“低级错误”呢?

其中一个大问题就是,同一个单字通常会有超过一个意思,同形异义字不但造成旅游者的困扰,有时候连政府公文都会出错。

例如,今年7月英国政府的脱欧白皮书里面提到了“democratic exercise”(民主制度的运用),翻译成德文就成了“demokratische Übung”,德语“Übung”一词指的是肢体锻炼,而非权利的行使。

人类水平

为了解决类似的问题,翻译软件持续优化机器学习的方法,软件会使用一些已经翻译好的文字,还会参考上下文来选择一个字词最适当的翻译。

今年早些时候,微软公司宣布他们的人工智能翻译质量已经到达人类水平,他们将一组中文新闻用机器翻译成英文,一个独立的专家小组评估后发现AI翻译结果和两名专业的人类翻译者翻译的结果不相上下。

微软表示,他们能做到这个突破,最重要的是他们使用了人工智能深度神经网络的帮助,以及参考大规模的机器翻译数据。

简单来说,人工智能翻译先得出一个“草稿”,这个草稿再经过不断的完善过程,进行文本对照、比较、学习,和人类翻译的过程非常相似。

黄学东

图像来源,Microsoft

图像加注文字,黄学东表示,机器翻译靠的是学习语言的规则

人工智能翻译软件能够根据它之前学习过的文件,来对一个语言掌握到大致的文法概念。

微软研究(Microsoft Research)的语音和语言技术研究员黄学东表示,人工智能翻译技术使用的不是语言之间的翻译规则,而是将翻译作为一个问题来解决,学习人工翻译不同语言文字之间的转换。

但是微软也承认,翻译新闻文件和翻译人类即时交谈是不同的,后者使用更多的语言习惯用法,不同的说话口音和不同的方言更增添困难度。

去年,谷歌推出了无线翻译耳机“Pixel Buds”,被戏称为能即时翻译40种语言的“翻译神器”,但是它的功能和使用性能还是有瑕疵,非主流语言问题也比较大。

Pixel Buds

图像来源,Getty Images

图像加注文字,谷歌无线翻译耳机被戏称为“翻译神器”

这是因为非主流语言不存在大量的翻译文本,因此人工智能翻译技术也“无从学起”,例如把僧伽罗语(Sinhala)翻译成普什图语(Pashto),类似这样的问题面临更大的挑战。

当然翻译软件可以把僧伽罗语先翻译成英语,然后再翻译成普什图语,但这一过程无疑地更容易出现之前说过的翻译错误。

脸书人工智能研究员兰普尔(Guillaume Lample)表示,如果能够收集到够多的翻译文本,就有办法解决小语种的翻译问题。

他说,同样的道理,如果小语种的翻译问题能够解决,那么也许有一天人类也能和外星人交谈。

“我们也许有一天能学会和外星人沟通对话,但首先我们必须说很多话,使用我们常用的语言。”