联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
基于AI人工智能方法的机器翻译
基于AI人工智能方法的机器翻译
最早机器翻译是基于规则的词语翻译(rule based machine translation, RBMT),由于无法处理词语多重含义和句子构造多样性,这种办法如今曾经不再运用。
几年前,机器翻译界的主流办法都是Phrased-Based Machine Translation (PBMT),当时Google 翻译运用的也是基于这个框架的算法。所谓Phrased-based,即翻译的最小单位由恣意连续的词(Word)组合成为的词组(Phrase)。其实质上属于统计机器翻译Statistical Machine Translation (SMT),即基于概率统计而非基于规则来学习源言语到目的言语的映射函数。90年代提出的IBM model是统计机器翻译中的经典翻译模型,也是基于词的统计机器翻译系统的根底。IBM翻译模型共有5个复杂度依次递增的统计翻译模型,IBM model1是其中最简单的模型,也是其他模型停止计算的根底。IBM模型1仅仅思索词对词的互译概率,模型2引入了词的位置变化概率,而模型3参加一词翻译成多词的概率。SMT在整个翻译过程中,需求依次调用其他各种更底层的 NLP 算法,比方中文分词、词性标注、句法构造等等,最终才干生成正确的翻译。这样像流水线一样的翻译办法,一环套一环,中间恣意一个环节有了错误,这样的错误解不断传播下去(error propagation),招致最终的结果出错。
深度神经网络倡导的是端到端学习,即跳过中间各种子 NLP 步骤,用深层的网络构造去直接学习拟合源言语到目的言语的概率。最新成果来自于论文:“Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”。该成果的评价是:“各种算法综合积聚的成果,是过去几年自然言语处置范畴好办法的集成,集成了Seq2Seq + Attention + Stack LSTM + Minimize Sentence Loss,办法学上的奉献不多,实验经历的奉献比拟多”。实质上是在NMT(Neural Machine Translation)的根底上所做改良。
在众多的机器翻译自动评价办法中,2002年IBM提出的基于N-gram准确率的BLEU办法是目前采用最普遍的。BLEU测度的原理是计算待评价译文和一个或多个参考译文间的间隔。间隔是文本间n元类似度的均匀,n=1,2,3(更高的值似乎无关紧要),即统计同时呈现在系统译文和参考译文中的n元词的个数,最后把匹配到的n元词的数目除以系统译文的单词数目,得到评测结果。也就是说,假如待选译文和参考译文的2元(连续词对)或3元类似度较高,那么该译文的得分就较高。普通来说人的 BLEU 值在50-70之间。
(启示:在体验度量中,倡议思索一种办法和机制来停止自动评价模型的效果,该办法和机制能够不受网络设备端的约束,只是作为一种自动反应)
固然SMT如今被NMT取代,但从目前精确率来看差距并不是很大,因而还是有参考价值
思绪剖析
SMT
业务建模
基于贝叶斯理论来思索翻译问题,就是在给定一个条件下,找到概率最大的结果,这个假定契合言语范畴的实践状况,比方人类总是按各自母语的语法和规则来讲述本人的言语,每个句子中词语先后次第和关联关系都构成了一种概率散布。详细的,下图中f表示源言语法语,e表示目的言语英语,目的就是找到p(e)为max的e。P(e)是表示句子是合法的英语句子的可能性,也叫做言语模型;P(f|e)是表示该翻译出的英文句子表达的意义与原来法语句子所表达的意义有多大的类似,或者说表达出几法语句子中的意义,也叫做翻译模型。下面的公式就这样方式化地描绘了整个翻译过程中的3个问题——言语模型、翻译模型以及解搜索。
几年前,机器翻译界的主流办法都是Phrased-Based Machine Translation (PBMT),当时Google 翻译运用的也是基于这个框架的算法。所谓Phrased-based,即翻译的最小单位由恣意连续的词(Word)组合成为的词组(Phrase)。其实质上属于统计机器翻译Statistical Machine Translation (SMT),即基于概率统计而非基于规则来学习源言语到目的言语的映射函数。90年代提出的IBM model是统计机器翻译中的经典翻译模型,也是基于词的统计机器翻译系统的根底。IBM翻译模型共有5个复杂度依次递增的统计翻译模型,IBM model1是其中最简单的模型,也是其他模型停止计算的根底。IBM模型1仅仅思索词对词的互译概率,模型2引入了词的位置变化概率,而模型3参加一词翻译成多词的概率。SMT在整个翻译过程中,需求依次调用其他各种更底层的 NLP 算法,比方中文分词、词性标注、句法构造等等,最终才干生成正确的翻译。这样像流水线一样的翻译办法,一环套一环,中间恣意一个环节有了错误,这样的错误解不断传播下去(error propagation),招致最终的结果出错。
深度神经网络倡导的是端到端学习,即跳过中间各种子 NLP 步骤,用深层的网络构造去直接学习拟合源言语到目的言语的概率。最新成果来自于论文:“Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”。该成果的评价是:“各种算法综合积聚的成果,是过去几年自然言语处置范畴好办法的集成,集成了Seq2Seq + Attention + Stack LSTM + Minimize Sentence Loss,办法学上的奉献不多,实验经历的奉献比拟多”。实质上是在NMT(Neural Machine Translation)的根底上所做改良。
在众多的机器翻译自动评价办法中,2002年IBM提出的基于N-gram准确率的BLEU办法是目前采用最普遍的。BLEU测度的原理是计算待评价译文和一个或多个参考译文间的间隔。间隔是文本间n元类似度的均匀,n=1,2,3(更高的值似乎无关紧要),即统计同时呈现在系统译文和参考译文中的n元词的个数,最后把匹配到的n元词的数目除以系统译文的单词数目,得到评测结果。也就是说,假如待选译文和参考译文的2元(连续词对)或3元类似度较高,那么该译文的得分就较高。普通来说人的 BLEU 值在50-70之间。
(启示:在体验度量中,倡议思索一种办法和机制来停止自动评价模型的效果,该办法和机制能够不受网络设备端的约束,只是作为一种自动反应)
固然SMT如今被NMT取代,但从目前精确率来看差距并不是很大,因而还是有参考价值
思绪剖析
SMT
业务建模
基于贝叶斯理论来思索翻译问题,就是在给定一个条件下,找到概率最大的结果,这个假定契合言语范畴的实践状况,比方人类总是按各自母语的语法和规则来讲述本人的言语,每个句子中词语先后次第和关联关系都构成了一种概率散布。详细的,下图中f表示源言语法语,e表示目的言语英语,目的就是找到p(e)为max的e。P(e)是表示句子是合法的英语句子的可能性,也叫做言语模型;P(f|e)是表示该翻译出的英文句子表达的意义与原来法语句子所表达的意义有多大的类似,或者说表达出几法语句子中的意义,也叫做翻译模型。下面的公式就这样方式化地描绘了整个翻译过程中的3个问题——言语模型、翻译模型以及解搜索。