-
“你打篮球像蔡徐坤”:微信翻译这个bug是怎么回事?
关键字: 微信翻译蔡徐坤打篮球bug吴亦凡
可能原因 1:训练集噪音
在接受硅星人采访的多位机器学习专家当中,大部分人都给这条原因投了票。
形象一点比喻,噪音 (noise) 就是训练翻译系统的数据集里出现的”不正确“的,“脏”的数据。
训练一个优秀的NMT系统,需要大量高质量的平行语料数据——”高质量“指的是准确的翻译,”平行语料“指的是一句英文一句中文的,”I love you = 我爱你“,等等。
这些数据要去哪里找?英汉辞典是一个来源。除此之外,最流行的做法是去互联网上抓取,从全网大量的数据里,抓取到所需要的高质量平行语料。
"you play basketball like caixukun" 被翻译成了”你的篮球打得真好“,噪音是哪来的?硅星人发现有两种可能性:
比如,网上已经存在了大量”caixukun=好“的语料。这些语料在爬取中被微信翻译当成了平行语料并采用了。但是实际上,这属于”噪音“,因为在翻译的语境下建立不了相关性,没办法确保是准确的。微信AI 可能在以后加强类似领域的去噪音。
创办了一家机器学习公司的韩辰*指出:在训练中,微信翻译团队人员可能使用生成对抗攻击 (generative adversarial attack) 的方式,做了类似手动加入噪音,在训练过程中主动对类似的翻译结果进行纠错的操作,最终干扰了翻译结果——这是一种可能发生的情况,我们并不揣测动机。
用噪音干扰计算机视觉图像识别的示例:人类无法辨认的图片,被深度神经网络识别为不同的物体。示例与本文主题无关,仅作参考。
在有噪音等异常情况存在的前提下,系统仍然能够正常训练、工作,给出高质量翻译结果——这样的能力在计算机科学里叫做“鲁棒性”(robustness)。
王夏指出,鲁棒性是NMT以及今后的机器翻译技术都需要改进和注意的。
可能原因 2:集外词
一种可能出现的情况是,在微信翻译训练用的数据集中,压根就没有出现过"caixukun"这个词。
当NMT遇到集外词时,可能会进行拆解找到集内词。这个拆解的过程也是随机的,比方说它可能拆成了 caix ukun,得到的仍然是集外词。
集外词翻译不好是很正常。如果没见过,那就不会翻,出现偏差也是情理之中的。
可能原因 3:领域不匹配
”另一种可能出现的情况是领域不匹配 (domains do not match),“王夏表示,并指出这并不一定是具体案例的情况。
在这个具体案例中,句子里出现了 basketball(篮球),而微信翻译的训练数据集可能没有篮球领域的,或者跟篮球有关的非常少。一个不匹配的领域,再加上句子里还有一个集外词,共同作用使得翻译结果很难正确。
这个解释行得通。比方说商贸往来是大部分微信用户使用翻译的原因,那么微信在训练NMT时可能用了贸易领域的数据集;篮球不是微信翻译用户的主要场景,那么在训练时也许就没有用篮球的数据集。
如果因为集外词和领域不匹配而出了错,你也不能怪它。没学过的东西,它又怎么可能会呢?
微信AI 的官方网站
可能原因 4:奇怪单词+无法引入常识
这个原因也是由NMT的工作原理导致的。
NMT对于长句子、段落,甚至一整篇文章的翻译效果很不错。这得益于它的机制,在翻译某个词时能够贴合上下文的语境。
但是在短句上,它就不一定灵了——特别是当这个句子完全不通顺的时候。
可能因为在"you play basketball like caixukun"这句话中,caixukun 是一个非常奇怪的单词。它既没有出现在任何一本英语辞典当中,看上去跟句子的上下文也没什么关系。
微信翻译的训练,可能发生在蔡徐坤成为 NBA 中国新春贺岁大使之前
人类在翻译的时候,能够参考已有的常识、知识,翻不出来也可以去查资料。NMT却做不到这一点,当它在工作的时候,它并不具备一个常识库可以去参考。
而且,这一点并不是微信做不好——现在去用同样的句子考考 Google Translate,得到的结果也不令人完全满意。
“这个(无法引入常识的)问题不仅体现在翻译任务上,还包括阅读理解、问答等任务。如何在这一点上做改进,是个很有趣的方向,大家也都还在探索,”王夏表示。
所以,微信做错了吗?
- 原标题:“你打篮球像蔡徐坤”:微信翻译这个bug是怎么回事?
- 责任编辑:程北墨
- 最后更新: 2019-03-07 10:26:12
-
中国页岩气单井日产量创新高
2019-03-07 07:28 能源战略 -
苹果供应商晒折叠屏大招:正研发可折玻璃
2019-03-06 21:38 苹果新“品” -
去年我国研发经费支出近2万亿元,比上年增11.6%
2019-03-06 21:03 科技前沿 -
只差一块钱,小米9和iQOO到底谁更香?
2019-03-06 17:41 手机 -
中国存储器能否打破海外垄断?
2019-03-06 17:29 TMT观察 -
-
小米卢伟冰总结魅族Note 9:遗憾还在继续
2019-03-06 17:06 -
三星正研发两款折叠屏手机,一款类似华为Mate X
2019-03-06 16:22 大公司 -
去年全球智能手机出货量减少5.1% 北美锐减13.2%
2019-03-06 14:57 手机 -
观点:提速降费与5G使能兼顾 运营商如何兼顾
2019-03-06 13:30 -
格力手机3代上架官网 售价3600元
2019-03-06 13:22 -
动工在即!华为要用100亿打造上海青浦研发基地
2019-03-06 12:14 大公司 -
“夜视眼药水” 治色盲有戏
2019-03-06 11:14 -
最新报告:万亿研发经费,中国都花在哪儿了?
2019-03-06 10:28 科技前沿 -
苹果iPhone XI配置曝光:三摄、水下模式、黑暗模式
2019-03-05 20:10 手机 -
中国空间站安排上了!将首次向国际开放
2019-03-05 19:30 航空航天 -
销量不佳,iPhone再次全网疯狂降价
2019-03-05 18:23 手机 -
张小龙请回答:微信这些功能是咋想的?
2019-03-05 14:27 TMT观察 -
英特尔与紫光展锐5G情断,2大关键因素露馅
2019-03-05 13:49 TMT观察 -
紫光展锐自主研发的春藤510是一款怎样的5G芯片?
2019-03-05 13:37 科技前沿
相关推荐 -
特朗普又“眨眼”:中方来谈吧,签个“特殊协议” 评论 80“中国打贸易战有秘密武器:AI机器人大军” 评论 105中国不买美国液化气了,换中东 评论 110把中国货“藏”在加拿大,“我们赌特朗普会认怂” 评论 98最新闻 Hot
-
特朗普又“眨眼”:中方来谈吧,签个“特殊协议”
-
“共和党人气坏了,但碍于特朗普只能保持不安的沉默”
-
暴跌71%!马斯克叹气:我劝过特朗普,听不听由他
-
12州联合起诉:特朗普,收手吧
-
特朗普警告泽连斯基:再打3年,你国都没了
-
美媒放风:特朗普考虑大幅下调对华关税,或降至50%-65%
-
最后一刻,他俩都不去了
-
“纯关税壁垒最粗暴,欧盟快和中国谈吧”
-
总计7亿欧元,欧盟对苹果、Meta“罚酒三杯”
-
“中国打贸易战有秘密武器:AI机器人大军”
-
“俄乌都得在领土上让步,再不同意美国就退出”
-
中国不买美国液化气了,换中东
-
把中国货“藏”在加拿大,“我们赌特朗普会认怂”
-
涉及稀土,马斯克:正与中方协商
-
美国着急放风“即将与日印达成协议”,其实只是…
-
通用电气CEO:别打了,我们还没给中国交付...
-