CFan科学院:微信离奇翻译的背后

CFan 电脑爱好者 2020-09-24 10:01应用 标签:科学院 微信 技巧

微信翻译功能推出已有很久了,但是微信翻译却曾经曝出一些十分离奇的Bug,将一些人名翻译成很多莫名其妙的结果。微信翻译为什么会出现这样的结果呢?这还得从它背后的翻译技术说起。

机器翻译——并不陌生的翻译技术

很多经常查找外文资料的朋友都会用到谷歌、百度的在线翻译功能,这其实就是机器翻译的一种典型应用(图1)。

201908wxfy1

图1 百度在线翻译

不过由于机器翻译只是简单地对单词进行机械翻译,因此很多时候翻译的结果并不让人满意。因为在实际生活中,很多语句翻译还要结合上下文、语气、语境等综合因素进行,这样才能获得更为准确的翻译结果。

为了让机器翻译的结果更为准确,相应技术不断更新。早期主要应用的是基于规则的技术,就是为机器配置一些简单的规则,比如名词以特定的后缀-heit、-keit、-ung等结尾,然后机器根据这些规则进行机械翻译。之后随着语音识别、DNN(深度神经网络)技术的快速发展,基于神经网络的机器翻译技术逐渐成为主流。微信翻译目前使用的是“神经机器翻译”技术(Neural Machine Translation, 以下简称NMT),它就是基于神经网络的翻译技术(图2)。

201908wxfy2

图2 神经机器翻译

微信翻译的背后——认识NMT技术

NMT是怎样翻译的呢?为什么这次微信翻译会出现如此大的差错?

NMT和传统的基于规则的翻译技术不同,它不是一次翻译一个单词的破碎句子,而是使用大型人工神经网络计算单词序列的概率,将完整的句子放入一个集成模型中,从而实现更高质量的翻译。

NMT在一定程度上模仿人脑的思维方式,当我们输入一句需要翻译的语句时,NMT首先会根据一个单词在整个句子(可以是长句)当中的语境,为这个单词建立一个神经网络的模型,形成一个语义表示。举个例子,我们输入的是“dog”这个单词,那么NMT会先把它理解为“狗”。但是如果我们输入的是一句话,如“一条狗生下了小狗”,那么NMT就会根据单词在句子甚至段落的语境中,将模型重新转化成另一种语言。比如在法语的语境中,狗默认是“le chien”,但是在上述语境中,显然前一个“狗”指的是狗妈妈,因此这里的“狗”就会被翻译成代表“女性”的“la chienne”(图3)。

201908wxfy3

图3 NMT翻译

既然NMT是基于神经网络的技术,那么就离不开模型和算法。为了让NMT学会翻译各种语句,科学家们会先制定一个模型,然后输入海量数据给NMT训练,通过大量的数据训练,并且结合NMT自主学习,最终形成一套算法。这套算法部署到服务器后,当用户输入特定的语句时,服务器在后台就会根据算法进行翻译,结合上下文语境,将最佳的翻译结果输出到屏幕显示(图4)。

201908wxfy4

图4 NMT翻译流程图解

这次微信翻译出现异常,原因可能出现在训练数据上,因为这次用户输入的只是一句类似“you play basketball like zhangsan?”的句子。在这个翻译场景中,类似人名“zhangsan”是一个不常见的单词,它既没有出现在任何一本英语辞典当中,看上去跟句子的上下文也没什么关系。可以说NMT在之前的训练中可能并没有接触过这样的数据,因此微信翻译服务器在接到类似的语句输入时,NMT就只能根据算法将最优的翻译结果推送给用户,从而出现文章前面所说的翻译Bug(图5)。

201908wxfy5

图5 微信翻译结果

不过根据NMT的翻译机制,上述Bug的出现还可能是其他原因导致的。比如训练集噪音,微信翻译团队人员可能使用生成对抗攻击的方式训练,在训练中手动加入噪音,这样在翻译中会主动对类似的翻译结果进行纠错的操作,最终却干扰了翻译结果。也有可能是学习错误导致的,比如领域不匹配,这次语句出现 basketball,而微信翻译的训练数据集可能没有篮球领域,或者跟篮球有关的非常少,导致NMT无法精准识别,从而翻译效果欠佳。

因此从严格意义上说,这次Bug并不能让微信翻译团队背锅,这是由于NMT翻译机制导致的,其他使用NMT技术翻译的产品也会出现类似的错误。

201908wxfy6

小Bug,并不影响NMT的应用

这次微信翻译的Bug在网上弄得沸沸扬扬,从上面描述我们知道,原因并非出在微信身上。这次Bug并不影响NMT技术给我们带来的便利,随着NMT得到更广泛的应用,它必定会给我们的生活带来更多便利。

举例来说,通过使用NMT技术,我们可以和全球任何人进行互动,这在全球一体化的今天具有很大的现实意义,比如很多网店商家,借助NMT就可以和全球客户进行交流。NMT在多语言同声翻译中的应用,则给大家和不同国家的同事之间交流带来方便,基于NMT和语音识别开发,在2018年博鳌论坛担任同声传译的腾讯同传,就让参加会议的各国朋友在第一时间“听”懂和“看”懂了主持人发言(图6)。

入驻平台680