联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
深度学习中的神经概率语言模型
深度学习中的神经概率语言模型
统计言语建模的目的是学习言语中单词序列的结合概率函数。由于 the curse of dimensionality,这实质上是艰难的:模型测试的单词序列可能与锻炼集中的单词序列不同。一种基于n-gram的传统的但十分胜利的办法是,经过衔接锻炼集中看到的十分短的堆叠序列来取得泛化。我们倡议经过学习词的散布式表示来对立维数灾难,模型经过锻炼语句对指数级语义相关的句子停止建模,该模型同时学习每个单词的散布式表示以及单词序列的概率函数。假如单词序列是由曾经见过的单词(在具有左近表示的意义上)的类似单词构成的,那么取得泛化是由于这些之前从未见过的单词序列具有较高的概率。在合理的时间内锻炼这样的大型模型(具有数百万个参数)自身就是一个严重应战。本文引见了运用神经网络停止概率函数的实验,改良了n-gram模型,能够应用更长的上下文,并在两个文本意料上都显现了很好的效果。。
散布式表示:将庞大的词汇表,从一个高维空间映射到一个低维空间中,而又尽量保管不同词之间差别性的技术。所谓散布式表示,是存在一个散布式假定,即假如两个词的上下文相同,那么这两个词的表示也是相 似的。能够将散布式表示了解为一种用来得到词表示的办法。
Introduction
使言语建模和其他学习问题完成艰难的基本问题是维度灾难。当人们想要模仿许多离散随机变量(例如句子中的单词或数据发掘任务中的离散属性)之间的结合散布时,更为明显。例如,假如想用大小为100,000的词汇表V的自然言语来模仿10个连续单词的结合散布,则可能有10000010−1=1050−1
100000
10
−1=10
50
−1个自在参数。在对连续变量建模时,我们更容易取得泛化(例如,运用平滑的函数类,如多层神经网络或高斯混合模型),由于要学习的函数的预期具有一些部分平滑性。关于离散空间,泛化构造并不那么明显:这些离散变量的任何变化都可能对要估量的函数的值产生宏大影响,并且当每个离散变量能够采用的数值很大时,在 Hamming 间隔中的大多数观测对象简直彼此远离。
从非参数密度估量的观念动身,想象不同窗习算法是如何泛化的,一种有用办法是思索最初集中在锻炼点(例如,锻炼句子)的概率质量(mass)是如何以更大的体积散布,通常在锻炼点四周的相邻的某种方式。在高维度中,将概率质量散布在重要的中央而不是在每个锻炼点四周的一切方向上平均散布是至关重要的。在本文中,我们将展现这里提出的办法的通用方式与以前的最先进的统计言语建模办法普通化的方式是基本不同的。
言语的统计模型能够由给定一切先前的单词的下一个单词的条件概率表示:
其中wt
w
t
是第 t 个词,wji=(wi,wi+1,...,wj−1,wj)
w
,wj)表示子序列。这种统计言语模型在触及自然言语的许多技术应用中是有用的,例如语音辨认,言语翻译和信息检索等。因而,统计言语模型的改良可能对此类应用产生严重影响。
在构建自然言语的统计模型时,经过应用单词次第大大降低了这种建模问题的难度,并且在单词序列中时间上更接近的单词在统计上愈加依赖。因而,关于大量上下文中n-1个单词的组合,n-gram模型结构出了下一个单词的条件概率表:
我们只思索实践呈现在锻炼语料库中的那些连续单词组合,或者那些足够频繁发作的组合。但当呈现n个词的新组合但在锻炼语料库中没有发现时会发作什么?我们不希望为这种状况分配零概率,由于这样的新组合可能会发作,并且关于更大的上下文,它们将更频繁地发作。一个简单的方法是运用更小的语料停止概率预测,例如后退三元模型或平滑三元模型。那么,在这样的模型中,从锻炼语料库看到的单词序列到新的单词序列中,泛化是如何取得的?了解这种状况的办法是思索相应的插值 (interpolated) 或n元回退(back-off n-gram)模型的生成模型,经过“粘合(gluing)”锻炼数据中短且反复的长度为1,2以至n个频繁呈现的单词来生成新的单词序列。
通常研讨人员运用n = 3,即三元,能够取得最先进的结果,但Goodman(2001)分离了许多技巧能够产生本质性的改良。显然,序列中有更多信息紧跟在预测词之前,而不只仅是前两个词的标识。这种办法至少有两个中央需求改良,首先,它没有思索超越1或2个单词的上下文,第二没有思索单词之间的“类似性”。例如,在锻炼语料库中看到“The cat is walking in the bedroom”的句子应该能够协助我们概括地使句子“A dog was running in a room”呈现的概率变高,由于“dog”和“cat”(“the”和“a”,“room”和“bedroom”等等)具有类似的语义和语法角色。
曾经提出了许多办法来处理这两个问题,我们将在1.2节中扼要解释这里提出的办法与其中一些早期办法之间的关系。我们将首先讨论提出的办法的根本思想是什么。第2节将更正式的引见,运用依赖于共享参数的多层神经网络来完成。本文的另一个奉献是思索如何为十分大的数据集(具有数百万或数千万个示例)锻炼这种十分大的神经网络(具有数百万个参数)。最后,本文的一个重要奉献是标明:锻炼这种 large-scale 模型固然昂贵但是可行的,可扩展到 large contexts,并能产生良好的比拟结果。
散布式表示:将庞大的词汇表,从一个高维空间映射到一个低维空间中,而又尽量保管不同词之间差别性的技术。所谓散布式表示,是存在一个散布式假定,即假如两个词的上下文相同,那么这两个词的表示也是相 似的。能够将散布式表示了解为一种用来得到词表示的办法。
Introduction
使言语建模和其他学习问题完成艰难的基本问题是维度灾难。当人们想要模仿许多离散随机变量(例如句子中的单词或数据发掘任务中的离散属性)之间的结合散布时,更为明显。例如,假如想用大小为100,000的词汇表V的自然言语来模仿10个连续单词的结合散布,则可能有10000010−1=1050−1
100000
10
−1=10
50
−1个自在参数。在对连续变量建模时,我们更容易取得泛化(例如,运用平滑的函数类,如多层神经网络或高斯混合模型),由于要学习的函数的预期具有一些部分平滑性。关于离散空间,泛化构造并不那么明显:这些离散变量的任何变化都可能对要估量的函数的值产生宏大影响,并且当每个离散变量能够采用的数值很大时,在 Hamming 间隔中的大多数观测对象简直彼此远离。
从非参数密度估量的观念动身,想象不同窗习算法是如何泛化的,一种有用办法是思索最初集中在锻炼点(例如,锻炼句子)的概率质量(mass)是如何以更大的体积散布,通常在锻炼点四周的相邻的某种方式。在高维度中,将概率质量散布在重要的中央而不是在每个锻炼点四周的一切方向上平均散布是至关重要的。在本文中,我们将展现这里提出的办法的通用方式与以前的最先进的统计言语建模办法普通化的方式是基本不同的。
言语的统计模型能够由给定一切先前的单词的下一个单词的条件概率表示:
其中wt
w
t
是第 t 个词,wji=(wi,wi+1,...,wj−1,wj)
w
,wj)表示子序列。这种统计言语模型在触及自然言语的许多技术应用中是有用的,例如语音辨认,言语翻译和信息检索等。因而,统计言语模型的改良可能对此类应用产生严重影响。
在构建自然言语的统计模型时,经过应用单词次第大大降低了这种建模问题的难度,并且在单词序列中时间上更接近的单词在统计上愈加依赖。因而,关于大量上下文中n-1个单词的组合,n-gram模型结构出了下一个单词的条件概率表:
我们只思索实践呈现在锻炼语料库中的那些连续单词组合,或者那些足够频繁发作的组合。但当呈现n个词的新组合但在锻炼语料库中没有发现时会发作什么?我们不希望为这种状况分配零概率,由于这样的新组合可能会发作,并且关于更大的上下文,它们将更频繁地发作。一个简单的方法是运用更小的语料停止概率预测,例如后退三元模型或平滑三元模型。那么,在这样的模型中,从锻炼语料库看到的单词序列到新的单词序列中,泛化是如何取得的?了解这种状况的办法是思索相应的插值 (interpolated) 或n元回退(back-off n-gram)模型的生成模型,经过“粘合(gluing)”锻炼数据中短且反复的长度为1,2以至n个频繁呈现的单词来生成新的单词序列。
通常研讨人员运用n = 3,即三元,能够取得最先进的结果,但Goodman(2001)分离了许多技巧能够产生本质性的改良。显然,序列中有更多信息紧跟在预测词之前,而不只仅是前两个词的标识。这种办法至少有两个中央需求改良,首先,它没有思索超越1或2个单词的上下文,第二没有思索单词之间的“类似性”。例如,在锻炼语料库中看到“The cat is walking in the bedroom”的句子应该能够协助我们概括地使句子“A dog was running in a room”呈现的概率变高,由于“dog”和“cat”(“the”和“a”,“room”和“bedroom”等等)具有类似的语义和语法角色。
曾经提出了许多办法来处理这两个问题,我们将在1.2节中扼要解释这里提出的办法与其中一些早期办法之间的关系。我们将首先讨论提出的办法的根本思想是什么。第2节将更正式的引见,运用依赖于共享参数的多层神经网络来完成。本文的另一个奉献是思索如何为十分大的数据集(具有数百万或数千万个示例)锻炼这种十分大的神经网络(具有数百万个参数)。最后,本文的一个重要奉献是标明:锻炼这种 large-scale 模型固然昂贵但是可行的,可扩展到 large contexts,并能产生良好的比拟结果。
上一条:OCR手机扫描识别银行卡号识别技术
下一条:护照扫描仪