铜仁市论坛

首页 » 分类 » 常识 » 朱靖波谈谈机器翻译技术发展与产业化
TUhjnbcbe - 2020/11/14 4:36:00

作者

朱靖波

编辑

陈彩娴

由中国中文信息学会主办,山东大学承办的第十七届自然语言处理青年学者研讨会(YSSNLP)于10月24-25日在线上举行。作为国内NLP领域最重要盛会之一,大会邀请了国内外计算机领域知名专家、企业家在线上做了精彩报告。小牛翻译董事长、东北大学计算机学院人工智能系朱靖波教授做了题为《谈谈机器翻译技术发展与产业应用》的特邀报告,以下是报告整理,有部分删减。说起YSSNLP这个会议,我对它有着很深的感情,这要从我跟它的渊源说起。时间追溯到年年底,我到三亚参加首届IJCNLP会议,刚好复旦大学*萱菁老师也在那举办国内的信息检索会议,第一次与*老师见面,我就跟她聊起了我的想法——打算做个青年学者研讨会。*老师听后也觉得这个很好的事情,可以组织起来,于是,我们说干就干,办起了第一届自然语言处理青年学者研讨会,我给它取了个名字——YSSNLP,这个名称沿用至今。第一届YSSNLP会议,请到了台湾的苏克毅老师做了题为《WhyandHow》的报告,同大家聊了聊我们为什么要做研究。当时会议宗旨包括三点:加强学术界青年学者之间的交流、通过平台加强与企业的交流、加强与*府主管部门的交流。当时会议还是民间性质的,于是哈工大刘挺老师提了一个建议,说想做一个精英俱乐部,有名额限制,全国每个实验室只派一个代表参会。于是,YSSNLP会议就这样如火如荼地开起来了。年是一个转折点,我们做了一个重要的决定。年第七届会议在沈阳召开,会上我们决定给每个实验室增加一个新名额,但是必须要是年轻人,给我们的会议增添一些新鲜血液,会议的规模也从这届起开始扩大。渐渐地参会的人越来越多,我们把会议交给了中文信息学会,学会又专门成立了青工委主管会议,参会的年轻人越来越多,也越来越热闹了。回想起来,当初能够参与并组织起这样个会议,真是一件让人非常自豪的事。1

机器翻译技术发展

渊源讲完,咱们回到正题。给大家讲一讲机器翻译技术发展和产业应用。机器翻译是快速进行大数据翻译任务的唯一解决方案,其实当初提出机器翻译的时候,动机就是为了代替人工。由于机器翻译的技术在可预期的将来,不可能达到人工翻译的水平,所以我们把它当成一种技术工具。机器翻译系统包括几个维度:语种、垂直领域、应用模式。第一代机器翻译系统被董振东老师称作是“傻子”,是因为规则是写不完的,只要是机器没有“见过”的句子,它就翻译不了。80年代末90年代初,第二代统计机器翻译出现了,它最吸引人的地方,不是技术的问题,而是不用再写规则了。用机器学习的方法构建翻译模型虽然效果有了提升,但是只要句子稍微复杂,机器就翻译不好了。比如说,它对短语翻译得不错,但是一遇到调序问题就不行了。所以,董老师当时称第二代机器翻译系统为“疯子”。到了,提出了第三代机器翻译系统——神经机器翻译技术。它的基本思想就是不再用短语去拼接翻译,而是把句子变成一个向量去翻译,当时提出的框架就是端到端(编码器-解码器)。最初,提出来的时候主要是应用RNN循环神经网络,后来又由Facebook提出了CNN卷积神经网络,再后来又由谷歌提出了基于自注意力的Transformer。其实,神经网络这个理论在40年代就有了,但是真正运用到机器翻译领域还是比较晚的。在年之前,为了解决统计机器翻译语言模型的问题,大家也引入了神经网络的技术去建模,虽然效果有所改善,但问题并没有完全解决。年,Encoder-Decoder框架被提出,神经网络诞生。虽然理论是新的,但是不被界内看好,因为它的性能并不好。年Attention机制被引入到神经网络中,大大推进了机器翻译的发展,让翻译品质得到大幅度提升,神经机器翻译技术一下子火起来了。我是做机器翻译产品的,所以非常
1
查看完整版本: 朱靖波谈谈机器翻译技术发展与产业化