联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
什么是AI中的机器学习?
什么是AI中的机器学习?
什么是机器学习?
我们会发现这里触及很多基于经历做出的预判.例如,为 什么看到微温路面、感到微风、看到晚霞,就以为明天是好天呢?这是由于在 我们的生活经历中曾经遇见过很多相似状况,头一天察看到上述特征后,第二 天天气通常会很好。
为什么色泽青绿、根蒂蜷缩、敲声浊晌,就能判别出是正 熟的好瓜?由于我们吃过、看过很多西瓜,所以基于色泽、根蒂、敲声这几个 特征我们就能够做出相当好的判别.相似的,我们从以往的学习经历晓得,下足 了时间、弄清了概念、做好了作业,自然会获得好成果。
能够看出,我们能做出 有效的预判?是由于我们曾经积聚了许多经历,而经过对经历的应用?就能对新 状况做出有效的决策. 上面对经历的应用是靠我们人类本身完成的.计算机能帮助吗?
机器学习正是这样一门学科,它努力于研讨如何经过计算的手腕,应用经 验来改善系统本身的性能在计算机系统中,"经历"通常以"数据"方式存 在,因而,机器学习所研讨的主要内容,是关于在计算机上从数据中产生"模 型" (model) 的算法,即"学习算法" (learning algorithm)。有了学习算法,我 们把经历数据提供应它,它就能基于这些数据产生模型;在面对新的状况时(例 如看到一个没剖开的西瓜),模型会给我们提供相应的判别(例如好瓜) 。假如说 计算机科学是研讨关于"算法"的学问,那么相似的,能够说机器学习是研讨 关于"学习算法"的学问。
根本术语
要停止机器学习,先要有数据。假定我们搜集了一批关于西瓜的数据,例 如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=漆黑;根蒂=稍蜷;敲声=沉 闷), (色泽=浅自;根蒂=硬挺;敲声=洪亮),……,每对括号内是一条记载, "="意义是"取值为"。
这组记载的汇合称为一个"数据集" (data set) ,其中每条记载是关于一 个事情或对象(这里是一个西瓜)的描绘,称为一个"示例" (instance) 或"样 本" (samp1e)。 反映事情或对象在某方面的表现或性质的事项,例如"色泽" "根蒂" "敲声",称为"属性"(attribute) 或"特征" (feature); 属性上的取 值,例如"青绿" "漆黑",称为"属性值" (attribute va1ue)。 属性张成的空 间称为"属性空间" (attribute space) 、 "样本空间" (samp1e space)或"输入 空间"。例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴,则它们张成 一个用于描绘西瓜的三维空间,每个西瓜都可在这个空间中找到本人的坐标位 置。由于空间中的每个点对应一个坐标向量,因而我们也把一个示例称为一个 "特征向量" (feature vector)。
普通地,令 D = {X1,X2 ".., Xm } 表示包含 m 个示例的数据集,每个 示例由 d 个属性描绘(例如上面的西瓜数据运用了 3 个属性),则每个示例 Xi = (Xi1; Xi2; . . . ; Xid) 是 d 维样本空间 X 中的一个向量 , Xi ε X , 其中 Xij 是 Xi 在第 j 个属性上的取值(例如上述第 3 个西瓜在第 2 个属性上的值是"硬 挺" ), d 称为样本Xi的"维数" (dimensionality)。
从数据中学得模型的过程称为"学习" (learning)或"锻炼" (training), 这个过程经过执行某个学习算法来完成。锻炼过程中运用的数据称为"锻炼 数据" (training data) ,其中每个样本称为一个锻炼样本" (training samp1e), 锻炼样本组成的汇合称为"锻炼集" (training set)。
学得模型对应了关于数据 的某种潜在的规律,因而亦称"假定" (hypothesis); 这种潜在规律本身,则称 为"真相"或"真实" (ground-truth),学习过程就是为了找出或迫近真相,可看作学习算法在给定数据和参数空 间上的实例化。
假如希望学得一个能协助我们判别没剖开的是不是"好瓜"的模型,仅 有前面的示例数据显然是不够的要树立这样的关于"预测" (prediction) 的 模型,我们需取得锻炼样本的"结果"信息,例如" ((色泽=青绿;根蒂=蜷缩; 敲声=浊响),好瓜)" 。这里关于示例结果的信息,例如"好瓜",称为"标 记" (labe1); 具有了标志信息的示例,则称为"样例" (examp1e). 普通地,用(Xi , Yi) 表示第 i个样例 。 其中 Yi ε Y 是示例 Xi 的标志 , Y 是一切标志的汇合, 亦称"标志空间" (label space)或"输出空间。
若我们欲预测的是离散值,例如"好瓜" "坏瓜",此类学习任务称为 "分类" (classification);
若欲预测的是连续值,例如西瓜成熟度 0.95 、 0.37 , 此类学习任务称为"回归" (regression)。
对只触及两个类别的"二分 类" (binary classification)任务,通常称其中一个类为 "正类" (positive class), 另一个类为"反类" (negative class); 触及多个类别时,则称为"多分 类" (multi-class classificatio叫任务。
普通地,预测任务是希望经过对锻炼 集 {(X1' Y1) , (X2 ,Y2) ,..., (Xm,Ym)} 停止学习,树立一个从输入空间 X 到输出 空间 y 的映射 f: X ——>y。 对二分类任务,通常令 Y = {-1 ,+ 1} 或 {O , l}; 对 多分类任务, |y| >2; 对回归任务, Y= R,R为实数集。
学得模型后,运用其停止预测的过程称为"测试" (testing),被预测的样本 称为测试样本" (testing sample)。例如在学得 f 后,对测试例 X , 可得到其预 测标志 ν = f(x)。
我们还能够对西瓜做"聚类" (clustering) ,行将锻炼集中的西瓜分红若干 组,每组称为一个"簇" (cluster); 这些自动构成的簇可能对应一些潜在的概念 划分,例如"淡色瓜" "深色瓜 程有助于我们理解数据内在的规律,能为更深化地剖析数据树立根底。需阐明 的是,在聚类学习中,"淡色瓜" "本地瓜"这样的概念我们事前是不晓得的, 而且学习过程中运用的锻炼样本通常不具有标志信息。 依据锻炼数据能否具有标志信息,学习任务可大致划分为两大类"监视 学习" (supervised learning) 和"无监视学习" (unsupervised learning) ,分类 和回归是前者的代表,而聚类则是后者的代表。
需留意的是,机器学习的目的是使学得的模型能很好地适用于"新样本", 而不是仅仅在锻炼样本上工作得很好;即使对聚类这样的无监视学习任务,我 们也希望学得的簇划分能适用于没在锻炼集中呈现的样本。
学得模型适用于 新样本的才能,称为"泛化" (generalization)才能。具有强泛化才能的模型能 很好地适用于整个样本空间。于是,虽然锻炼集通常只是样本需间的一个很小 的采样,我们仍希望它能很好地反映出样本空间的特性,否则就很难希冀在训 练集上学得的模型能在整个样本空间上都工作得很好。
通常假定样本空间中全 体样本服从一个未知"散布" (distribution) Ð , 我们取得的每个样本都是独立 地从这个散布上采样取得的,即"独立同散布" (independent and identically distributed,简称 i.i.d.). 普通而言,锻炼样本越多,我们得到的关于 D 的信息越多,这样就越有可能经过学习取得具有强泛化才能的模型。
我们会发现这里触及很多基于经历做出的预判.例如,为 什么看到微温路面、感到微风、看到晚霞,就以为明天是好天呢?这是由于在 我们的生活经历中曾经遇见过很多相似状况,头一天察看到上述特征后,第二 天天气通常会很好。
为什么色泽青绿、根蒂蜷缩、敲声浊晌,就能判别出是正 熟的好瓜?由于我们吃过、看过很多西瓜,所以基于色泽、根蒂、敲声这几个 特征我们就能够做出相当好的判别.相似的,我们从以往的学习经历晓得,下足 了时间、弄清了概念、做好了作业,自然会获得好成果。
能够看出,我们能做出 有效的预判?是由于我们曾经积聚了许多经历,而经过对经历的应用?就能对新 状况做出有效的决策. 上面对经历的应用是靠我们人类本身完成的.计算机能帮助吗?
机器学习正是这样一门学科,它努力于研讨如何经过计算的手腕,应用经 验来改善系统本身的性能在计算机系统中,"经历"通常以"数据"方式存 在,因而,机器学习所研讨的主要内容,是关于在计算机上从数据中产生"模 型" (model) 的算法,即"学习算法" (learning algorithm)。有了学习算法,我 们把经历数据提供应它,它就能基于这些数据产生模型;在面对新的状况时(例 如看到一个没剖开的西瓜),模型会给我们提供相应的判别(例如好瓜) 。假如说 计算机科学是研讨关于"算法"的学问,那么相似的,能够说机器学习是研讨 关于"学习算法"的学问。
根本术语
要停止机器学习,先要有数据。假定我们搜集了一批关于西瓜的数据,例 如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=漆黑;根蒂=稍蜷;敲声=沉 闷), (色泽=浅自;根蒂=硬挺;敲声=洪亮),……,每对括号内是一条记载, "="意义是"取值为"。
这组记载的汇合称为一个"数据集" (data set) ,其中每条记载是关于一 个事情或对象(这里是一个西瓜)的描绘,称为一个"示例" (instance) 或"样 本" (samp1e)。 反映事情或对象在某方面的表现或性质的事项,例如"色泽" "根蒂" "敲声",称为"属性"(attribute) 或"特征" (feature); 属性上的取 值,例如"青绿" "漆黑",称为"属性值" (attribute va1ue)。 属性张成的空 间称为"属性空间" (attribute space) 、 "样本空间" (samp1e space)或"输入 空间"。例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴,则它们张成 一个用于描绘西瓜的三维空间,每个西瓜都可在这个空间中找到本人的坐标位 置。由于空间中的每个点对应一个坐标向量,因而我们也把一个示例称为一个 "特征向量" (feature vector)。
普通地,令 D = {X1,X2 ".., Xm } 表示包含 m 个示例的数据集,每个 示例由 d 个属性描绘(例如上面的西瓜数据运用了 3 个属性),则每个示例 Xi = (Xi1; Xi2; . . . ; Xid) 是 d 维样本空间 X 中的一个向量 , Xi ε X , 其中 Xij 是 Xi 在第 j 个属性上的取值(例如上述第 3 个西瓜在第 2 个属性上的值是"硬 挺" ), d 称为样本Xi的"维数" (dimensionality)。
从数据中学得模型的过程称为"学习" (learning)或"锻炼" (training), 这个过程经过执行某个学习算法来完成。锻炼过程中运用的数据称为"锻炼 数据" (training data) ,其中每个样本称为一个锻炼样本" (training samp1e), 锻炼样本组成的汇合称为"锻炼集" (training set)。
学得模型对应了关于数据 的某种潜在的规律,因而亦称"假定" (hypothesis); 这种潜在规律本身,则称 为"真相"或"真实" (ground-truth),学习过程就是为了找出或迫近真相,可看作学习算法在给定数据和参数空 间上的实例化。
假如希望学得一个能协助我们判别没剖开的是不是"好瓜"的模型,仅 有前面的示例数据显然是不够的要树立这样的关于"预测" (prediction) 的 模型,我们需取得锻炼样本的"结果"信息,例如" ((色泽=青绿;根蒂=蜷缩; 敲声=浊响),好瓜)" 。这里关于示例结果的信息,例如"好瓜",称为"标 记" (labe1); 具有了标志信息的示例,则称为"样例" (examp1e). 普通地,用(Xi , Yi) 表示第 i个样例 。 其中 Yi ε Y 是示例 Xi 的标志 , Y 是一切标志的汇合, 亦称"标志空间" (label space)或"输出空间。
若我们欲预测的是离散值,例如"好瓜" "坏瓜",此类学习任务称为 "分类" (classification);
若欲预测的是连续值,例如西瓜成熟度 0.95 、 0.37 , 此类学习任务称为"回归" (regression)。
对只触及两个类别的"二分 类" (binary classification)任务,通常称其中一个类为 "正类" (positive class), 另一个类为"反类" (negative class); 触及多个类别时,则称为"多分 类" (multi-class classificatio叫任务。
普通地,预测任务是希望经过对锻炼 集 {(X1' Y1) , (X2 ,Y2) ,..., (Xm,Ym)} 停止学习,树立一个从输入空间 X 到输出 空间 y 的映射 f: X ——>y。 对二分类任务,通常令 Y = {-1 ,+ 1} 或 {O , l}; 对 多分类任务, |y| >2; 对回归任务, Y= R,R为实数集。
学得模型后,运用其停止预测的过程称为"测试" (testing),被预测的样本 称为测试样本" (testing sample)。例如在学得 f 后,对测试例 X , 可得到其预 测标志 ν = f(x)。
我们还能够对西瓜做"聚类" (clustering) ,行将锻炼集中的西瓜分红若干 组,每组称为一个"簇" (cluster); 这些自动构成的簇可能对应一些潜在的概念 划分,例如"淡色瓜" "深色瓜 程有助于我们理解数据内在的规律,能为更深化地剖析数据树立根底。需阐明 的是,在聚类学习中,"淡色瓜" "本地瓜"这样的概念我们事前是不晓得的, 而且学习过程中运用的锻炼样本通常不具有标志信息。 依据锻炼数据能否具有标志信息,学习任务可大致划分为两大类"监视 学习" (supervised learning) 和"无监视学习" (unsupervised learning) ,分类 和回归是前者的代表,而聚类则是后者的代表。
需留意的是,机器学习的目的是使学得的模型能很好地适用于"新样本", 而不是仅仅在锻炼样本上工作得很好;即使对聚类这样的无监视学习任务,我 们也希望学得的簇划分能适用于没在锻炼集中呈现的样本。
学得模型适用于 新样本的才能,称为"泛化" (generalization)才能。具有强泛化才能的模型能 很好地适用于整个样本空间。于是,虽然锻炼集通常只是样本需间的一个很小 的采样,我们仍希望它能很好地反映出样本空间的特性,否则就很难希冀在训 练集上学得的模型能在整个样本空间上都工作得很好。
通常假定样本空间中全 体样本服从一个未知"散布" (distribution) Ð , 我们取得的每个样本都是独立 地从这个散布上采样取得的,即"独立同散布" (independent and identically distributed,简称 i.i.d.). 普通而言,锻炼样本越多,我们得到的关于 D 的信息越多,这样就越有可能经过学习取得具有强泛化才能的模型。
上一条:护照OCR技术
下一条:手机文字OCR识别技术