人工智能中的概率论

新闻分类

联系我们

地址：北京市海淀区北四环西路9号 ,主营：人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别，OCR识别等及智能识别技术。
电话：13146317170 廖经理
传真：
邮箱：398017534@qq.com

人工智能中的概率论

概率论（probability theory）也是人工智能研讨中必备的数学根底。随着衔接主义学派的兴起，概率统计曾经取代了数理逻辑，成为人工智能研讨的主流工具。

同线性代数一样，概率论也代表了一种对待世界的方式，其关注的焦点是无处不在的可能性。对随机事情发作的可能性停止标准的数学描绘就是概率论的公理化过程。概率的公理化构造表现出的是对概率实质的一种认识。

将同一枚硬币抛掷 10 次，其正面朝上的次数既可能一次没有，也可能全部都是，换算成频率就分别对应着 0% 和 100%。频率自身显然会随机动摇，但随着反复实验的次数不时增加，特定事情呈现的频率值就会呈现出稳定性，逐步趋近于某个常数。

从事情发作的频率认识概率的办法被称为“频率学派”（frequentist probability），频率学派口中的“概率”，其实是一个可独立反复的随机实验中单个结果呈现频率的极限。由于稳定的频率是统计规律性的表现，因此经过大量的独立反复实验计算频率，并用它来表征事情发作的可能性是一种合理的思绪。

在概率的定量计算上，频率学派依赖的根底是古典概率模型。在古典概率模型中，实验的结果只包含有限个根本事情，且每个根本事情发作的可能性相同。假定一切根本事情的数目为 n，待察看的随机事情 A 中包含的根本事情数目为 k，则古典概率模型下事情概率的计算公式为:

从这个根本公式就能够推导出复杂的随机事情的概率。

前文中的概率定义针对都是单个随机事情，可假如要描写两个随机事情之间的关系,这就需求引入条件概率的概念。

条件概率（conditional probability）是依据已有信息对样本空间停止调整后得到的新的概率散布。假定有两个随机事情 AA和BB，条件概率就是指事情 AA 在事情 BB曾经发作的条件下发作的概率，用以下公式表示:

上式中的P(AB)P(AB)称为结合概率（joint probability），表示的是 AA和BB 两个事情共同发作的概率。假如结合概率等于两个事情各自概率的乘积，即P(AB)=P(A)⋅P(B)P(AB)=P(A)⋅P(B)，阐明这两个事情的发作互不影响，即两者互相独立。关于互相独立的事情，条件概率就是本身的概率，即P(A|B)=P(A)P(A|B)=P(A)。

基于条件概率能够得出全概率公式（law of total probability）。全概率公式的作用在于将复杂事情的概率求解转化为在不同状况下发作的简单事情的概率求和，即:

P(A)=∑i=1NP(A|Bi).P(Bi)

∑i=1NP(Bi)=1

全概率公式代表了频率学派处理概率问题的思绪，即先做出一些假定(P(Bi))(P(Bi))，再在这些假定下讨论随机事情的概率（P(A|Bi)）（P(A|Bi)）。

对全概率公式停止整理，就演化出了求解“逆概率”问题。所谓“逆概率”处理的是在事情结果曾经肯定的条件下(P(A))(P(A))，推断各种假定发作的可能性(P(Bi|A))(P(Bi|A))。其通用的公式方式被称为贝叶斯公式：

P(Bi|A)=P(A|Bi).P(Bi)∑Nj=1P(A|Bj).P(Bj)

P(Bi|A)=P(A|Bi).P(Bi)∑j=1NP(A|Bj).P(Bj)

贝叶斯公式能够进一步笼统为贝叶斯定理（Bayes’ theorem）：

P(H|D)=P(D|H).P(H)P(D)

式中的 P(H)P(H)被称为先验概率（prior probability），即预先设定的假定成立的概率；P(D|H)P(D|H)被称为似然概率（likelihood function），是在假定成立的前提下观测到结果的概率；P(H|D)P(H|D)被称为后验概率（posterior probability），即在观测到结果的前提下假定成立的概率。

从科学研讨的办法论来看，贝叶斯定理提供了一种全新的逻辑。它依据观测结果寻觅合理的假定，或者说依据观测数据寻觅最佳的理论解释，其关注的焦点在于后验概率。概率论的贝叶斯学派（Bayesian probability）正是降生于这种理念。

在贝叶斯学派眼中，概率描绘的是随机事情的可信水平。

频率学派以为假定是客观存在且不会改动的，即存在固定的先验散布。因此在计算详细事情的概率时，要先肯定概率散布的类型和参数，以此为根底停止概率推演。

相比之下，贝叶斯学派则以为固定的先验散布是不存在的，参数自身也是随机数。换句话说，假定自身取决于察看结果，是不肯定并且能够修正的。数据的作用就是对假定做出不时的修正，使察看者对概率的客观认识愈加接近客观实践。

概率论是线性代数之外，人工智能的另一个理论根底，多数机器学习模型采用的都是基于概率论的办法。但由于实践任务中可供运用的锻炼数据有限，因此需求对概率散布的参数停止估量，这也是机器学习的中心任务。

概率的估量有两种办法：最大似然估量法（maximum likelihood estimation）和最大后验概率法（maximum a posteriori estimation），两者分别表现出频率学派和贝叶斯学派对概率的了解方式。

最大似然估量法的思想是使锻炼数据呈现的概率最大化，依此肯定概率散布中的未知参数，估量出的概率散布也就最契合锻炼数据的散布。最大后验概率法的思想则是依据锻炼数据和已知的其他条件，使未知参数呈现的可能性最大化，并选取最可能的未知参数取值作为估量值。在估量参数时，最大似然估量法只需求运用锻炼数据，最大后验概率法除了数据外还需求额外的信息，就是贝叶斯公式中的先验概率。

详细到人工智能这一应用范畴，基于贝叶斯定理的各种办法与人类的认知机制吻合度更高，在机器学习等范畴中也扮演着愈加重要的角色。

概率论的一个重要应用是描绘随机变量（random variable）。依据取值空间的不同，随机变量能够分红两类：离散型随机变量（discrete random variable）和连续型随机变量（continuous random variable）。在实践应用中，需求对随机变量的每个可能取值的概率停止描绘。

离散变量的每个可能的取值都具有大于 0 的概率，取值和概率之间逐个对应的关系就是离散型随机变量的散布律，也叫概率质量函数（probability mass function）。概率质量函数在连续型随机变量上的对应就是概率密度函数（probability density function）。

概率密度函数表现的并非连续型随机变量的真实概率，而是不同取值可能性之间的相对关系。对连续型随机变量来说，其可能取值的数目为不可列无限个，当归一化的概率被分配到这无限个点上时，每个点的概率都是个无量小量，取极限的话就等于零。而概率密度函数的作用就是对这些无量小量加以辨别。固然在x→∞x→∞时，1/x1/x和 2/x2/x 都是无量小量，但后者永远是前者的 2 倍。这类相对意义而非绝对意义上的差异就能够被概率密度函数所描写。对概率密度函数停止积分，得到的才是连续型随机变量的取值落在某个区间内的概率。

定义了概率质量函数与概率密度函数后，就能够给出一些重要散布的特性。重要的离散散布包括两点散布、二项散布和泊松散布，重要的连续散布则包括平均散布、指数散布和正态散布。

两点散布（Bernoulli distribution）：适用于随机实验的结果是二进制的情形，事情发作 / 不发作的概率分别为 p/(1−p)p/(1−p)。任何只要两个结果的随机实验都能够用两点散布描绘，抛掷一次硬币的结果就能够视为等概率的两点散布。

二项散布（Binomial distribution）：将满足参数为 pp的两点散布的随机实验独立反复 nn次，事情发作的次数即满足参数为(n,p)(n,p)的二项散布。二项散布的表达式为：P(X=k)=Ckn⋅pk⋅(1−p)(n−k),0≤k≤nP(X=k)=Cnk⋅pk⋅(1−p)(n−k),0≤k≤n。

泊松散布（Poisson distribution）：放射性物质在规则时间内释放出的粒子数所满足的散布，参数为 λλ的泊松散布表达式为 P(X=k)=λk⋅e−λ/(k!)P(X=k)=λk⋅e−λ/(k!)。当二项散布中的nn很大且pp 很小时，其概率值能够由参数为λ=npλ=np的泊松散布的概率值近似。

平均散布（uniform distribution）：在区间 (a,b)(a,b) 上满足平均散布的连续型随机变量，其概率密度函数为 1/(b−a)1/(b−a)，这个变量落在区间(a,b)(a,b)内恣意等长度的子区间内的可能性是相同的。

指数散布（exponential distribution）：满足参数为θθ指数散布的随机变量只能取正值，其概率密度函数为 e−x/θ/θ,x>0e−x/θ/θ,x>0。指数散布的一个重要特征是无记忆性：即 P(X>s+t|X>s)=P(X>t)P(X>s+t|X>s)=P(X>t)。

正态散布（normal distribution）：参数为正态散布的概率密度函数为:

f(x)=12π−−√.δ.e−(x−μ)22δ2

f(x)=12π.δ.e−(x−μ)22δ2

当 μ=0,σ=1μ=0,σ=1 时，上式称为规范正态散布。正态散布是最常见最重要的一种散布，自然界中的很多现象都近似地服从正态散布。

除了概率质量函数 / 概率密度函数之外，另一类描绘随机变量的参数是其数字特征。数字特征是用于描写随机变量某些特性的常数，包括数学希冀（expected value）、方差（variance）和协方差（covariance）。

数学希冀即均值，表现的是随机变量可能取值的加权均匀，即依据每个取值呈现的概率描绘作为一个整体的随机变量的规律。方差表示的则是随机变量的取值与其数学希冀的偏离水平。方差较小意味着随机变量的取值集中在数学希冀左近，方差较大则意味着随机变量的取值比拟分散。

数学希冀和方差描绘的都是单个随机变量的数字特征，假如要描绘两个随机变量之间的互相关系，就需求用到协方差和相关系数。协方差度量了两个随机变量之间的线性相关性，即变量 YY能否表示成以另一个变量 XX 为自变量的 aX+baX+b的方式。

上一条：手机OCR银行卡号扫描识别下一条：OCR文字识别技术