人工智能再下一城:机器翻译提前7年达到人类专业翻译水平

www.w66.com利来国际

2018-10-05

由微软亚洲研究院与雷德蒙研究院的研究人员组成的团队今天宣布,其研发的机器翻译系统在通用新闻报道的中译英测试集上,达到了人类专业译者水平。

这是首个在新闻报道的翻译质量和准确率上媲美人类专业译者的翻译系统。

微软技术院士黄学东微软技术院士,负责微软语音、自然语言和机器翻译工作的黄学东博士表示,这是自然语言处理领域的一项里程碑式的成就。 “这是我们的情怀,是非常有意义的工作,”黄学东告诉新智元:“消除语言障碍,让人们能更好地沟通,非常有价值,值得我们多年来不断为此付出努力。 ”黄学东骄傲地说,2015年微软率先在图像识别ImageNet数据集达到人类水平,2016年在Switchboard对话语义识别达到人类水平,2017在斯坦福问答数据集SQuAD上达到人类水平,今天又在机器翻译上达到人类水平,一路走来,微软的进步激动人心,“这是我们共同的成就,我们是站在同行的肩膀上往上走”。 黄学东表示,微软语音和NLP组在成立时,便立下了要在两年后将机器翻译做到人类专业水平的目标。

如今,这一目标提前实现,“除了计算力的大幅提高,深度学习方法的提高,我们还结合了以前在Switchboard上取得的经验,数据也做了很多整理,比如去除低质量的训练数据,等等。 ”黄学东说。

“这既是技术上的突破,也是工程上的突破,是技术和工程的完美结合,只有把过程中的每一件事情都做好,才能得到这样的结果。 ”NLP里程碑式突破:首个媲美人类专业译者的机器翻译系统这次微软的翻译系统是在数据集WMT-17的新闻数据集newstest2017上取得了上述成果。 WMT是机器翻译领域的国际顶级评测比赛之一。 WMT数据集也是机器翻译领域一个公认的主流数据集。 其中,newstest2017新闻报道测试集由产业界和学术界的合作伙伴共同开发,包括来自新闻评论语料库的约332K个句子对,来自联合国平行语料库的个句子对,以及来自CWMT语料库的9M个句子对。 虽然研究人员只进行了汉译英的测试,但黄学东表示,英译汉结果也应该并无不同。

“从技术上说,汉译英和英译汉是相同的,只要有足够的数据。 ”为了确保翻译结果准确且达到人类的翻译水平,微软研究团队还邀请了双语语言顾问,将微软的翻译结果与两个独立的人工翻译结果进行了比较评估(全部盲测)。 黄学东告诉新智元:“当机器翻译质量很差的时候,使用BLEU评分还行,但是当机器翻译质量提高以后,就需要靠人类来评价。

”具体说,当100分是标准满分时,微软的系统得分,专业译者,而众包翻译得分为。 人类专家的评估结果(部分):其中,Reference-HT为纯人工翻译;Reference-PE为使用GoogleTranslate加人工后期编辑的翻译;Reference-WMT是WMT原始翻译,包含错误;Online-A-1710是2017年10月16日收集的Microsoft翻译商用系统(productionsystem);Online-B-1710是2017年10月16日收集的谷歌翻译商用系统;Sogou是搜狗NMT翻译系统,这是在2017年WMT中英机器翻译竞赛的冠军。

机器翻译提前7年超越人类译者,人工智能再下一城机器翻译是科研人员攻坚了数十年的研究领域,曾经很多人都认为机器翻译根本不可能达到人类翻译的水平。

2017年中旬,牛津大学面向机器学习研究人员做了一次大规模调查,调查的内容是他们对AI进展的看法。

这些研究人员预测,未来10年,AI将在许多活动中超过人类,具体预测见下表:[db:编辑]。