当前位置:首页 > 关于讯飞 > 新闻中心 > 媒体报道 > 正文
关于讯飞

人工智能,能否助人类重建“巴比伦塔”

发布时间:2017-01-06 来源:科技日报 点击次数: 打印 作者:

字号:

      假如上帝真的存在,他最近可能有些心事。

      在犹太人的古老传说中,人类曾试图修建一座通向天堂的“巴比伦塔”。为阻止这个疯狂的计划,上帝想出一个绝招——赋予不同族群不同语言,让人们难以沟通。

      最终,语言的隔阂让“巴比伦塔”计划搁浅。直到今天,即便信息和交通技术把世界变成了“地球村”,语系之间的交流,依然只能依靠对彼此语言的专业学习。

      但是现在,人工智能在语言翻译领域的突飞猛进,又让人们重新看到了“巴比伦塔”竣工的希望。


      九成六级考生不如“它”

      这段时间,机器翻译技术可谓高调。

      微软刚刚在12月13日放出“大招”—— 推出实时语音翻译应用Microsoft Translator,支持多人、多语言、跨设备交流。国内企业并未示弱。上个月底科大讯飞在其年度发布会上也展示了类似的技术,可以将中文会议演讲实时翻译成英、日、韩、维吾尔等多种语言显示在大屏幕上。发布会上推出的语音翻译机“晓译”还瞄准了更广阔的应用场景——出国游玩。

      平时不显山不露水的在线翻译应用也已华丽升级。今年9月,谷歌翻译启用了谷歌神经机器翻译(GNMT)系统,在人工智能界引起骚动。机器翻译的高调,依赖于人工智能技术在这一领域的显著进展。

     2014年起,人工神经网络开始在机器翻译领域引领风骚。“最终的翻译效果就是更加流畅了。”科大讯飞机器翻译研究主管刘俊华告诉科技日报记者,科大讯飞所展示的会议实时翻译系统和“晓译”翻译机便应用了基于神经网络的机器翻译方法,“晓译”翻译机可以达到大学英语六级水平。“大学英语六级的翻译题目满分为15分,目前机器翻译答题可以达到11分。”刘俊华解释说,这意味着机器翻译技术大概可以超过90%的英语六级考生。


      “炼丹炉”取代了“流水线”

      就在两三年前,“流畅”和“自然”还是让机器翻译研究人员感到头痛的字眼。那时,基于统计的机器翻译方法是大热门。

      短短两年多时间内,基于神经网络的机器翻译系统,就在多个公开测试集上超越了基于统计的机器翻译系统。

      单从翻译步骤来看,刘俊华的体会是,基于神经网络的机器翻译比其前任“简洁了非常多”。比如,要把一句中文翻译成英文,基于统计的机器翻译方法首先要对句子的词汇、短语进行切分,然后分别对每个单元进行翻译,再把翻译结果组合起来,最后还要进行调序等等。每个步骤都对应着十分复杂的模型。

      形象地说,如果基于统计的方法是一条长长的流水线,基于神经网络之后只需一个“炼丹炉”。

      新方法被称为“从端到端”的翻译。基本的神经机器翻译模型包含两个部分,编码器和解码器。编码器将源语言句子表示为一个向量,解码器根据此向量逐词产生目标译文。也就是说,一个句子经过一次“加工”就能够直接输出目标语言。

      不仅翻译效率得到了极大提高,结果也更加流畅自然。这是因为,神经机器翻译方法是对整个句子进行编码处理,可以照顾到词汇的上下文信息,因此翻译出的答案不像统计机器翻译方法那样生硬。

      正是“流畅”和“自然”将机器翻译技术推向更加实际的应用。而且在与其他人工智能技术相结合后,机器翻译可以真正触到人们语言不通的“痛点”,从而深度切入商务、旅行、学习等多个场景。

       例如,无论是微软的Microsoft Translator,还是科大讯飞的会议实时翻译系统以及“晓译”翻译机,都结合了语音识别技术来为语言交谈架起桥梁。


       等待打破“叹息”之墙
       可以看到,人工智能正在一点一点“捅破”人与人之间的语言隔阂。有网友戏言,或许不久后的一天,揣着装了高效语言翻译APP的手机,邻居大妈也能来一场说走就走的世界旅行。所有国家的学生将彻底挣脱外语课的“黑暗统治”。

       不过,要把重建“巴比伦塔”的美梦寄托给当前、乃至未来一段时间内的机器翻译技术,还是有点不太现实。除了技术上的挑战,更重要的是,复杂、多变,我们自己都掌握不住的“人性”,仍然是所有人工智能发展的叹息之墙。

       虽然对单个句子的翻译可以实现流畅和自然,但是在整个篇章的上下文理解方面,机器翻译并不给力。一旦涉及歇后语、诗句、双关语甚至口语化的表达,机器翻译更会毫不掩饰地掉链子。而对于如何将知识融合到机器翻译系统中,让机器真正“理解”人类的语言,目前还没有较好的解决方案。

       从另一个角度来看,无论是基于统计的机器翻译,还是基于神经网络的机器翻译,都以庞大的语料库为基础。然而刘俊华告诉科技日报记者,虽然中、英等主要语种的语料相对充足,一些小语种的翻译,比如科大讯飞目前关注的国内少数民族语言的翻译,依然会面临语料短缺的问题。

       “目前的成果可以证明,神经网络在语言翻译领域的应用效果不错,但它的潜力还没有完全发挥出来。”刘俊华给出的方案是,可以考虑将其他技术路线与基于神经网络的机器翻译方法融合起来,使其各施所长,实现更好的翻译效果。

       人工智能会不会取代专业的同声传译?这个简单的问题竟让机器翻译领域的专家们感到为难。在刘俊华看来,对照传统的翻译规则——“信、达、雅”,人工智能目前仅能实现“信”,离后二者尚有距离。

       只是,未来呢?

关 闭