联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
深度学习与机器学习的框架
深度学习与机器学习的框架
机器学习框架和深度学习框架之间有区别。本质上,机器学习框架涵盖用于分类,回归,聚类,异常检测和数据准备的各种学习方法,并且其可以或可以不包括神经网络方法。深度学习或深度神经网络(DNN)框架涵盖具有许多躲藏层的各种神经网络拓扑。这些层包括方式识别的多步骤过程。网络中的层越多,可以提取用于聚类和分类的特征越复杂。
Caffe,CNTK,DeepLearning4j,Keras,MXNet和TensorFlow是深度学习框架。 Scikit-learning和Spark MLlib是机器学习框架。 Theano逾越了这两个类别。
普通来说,深层神经网络计算在GPU(特别是Nvidia CUDA通用GPU,大多数框架)上运转的速度要比CPU快一个数量级。普通来说,更简单的机器学习方法不需求GPU的加速。
固然你可以在一个或多个CPU上锻炼DNN,锻炼常常是缓慢的,慢慢我不是说秒或分钟。需求锻炼的神经元和层数越多,可用于锻炼的数据越多,需求的时间就越长。当Google Brain小组在2016年针对新版Google翻译锻炼言语翻译模型时,他们在多个GPU上同时运转了一周的锻炼时间。没有GPU,每个模型锻炼实验将需求几个月。
这些框架中每一个框架具有至少一个显著特征。 Caffe的强项是用于图像识别的卷积DNN。 Cognitive Toolkit有一个单独的评价库,用于部署在ASP.Net网站上工作的预测模型。 MXNet具有良好的可扩展性,可用于多GPU和多机器配置的锻炼。 Scikit-learn具有普遍的强大的机器学习方法,易学已用。 Spark MLlib与Hadoop集成,具有良好的机器学习可伸缩性。 TensorFlow为其网络图TensorBoard提供了一个共同的诊断工具。
另一方面,一切深度学习框架在GPU上的锻炼速度几乎相同。这是由于锻炼内循环在Nvidia CuDNN包中花费大部分时间。但是,每个框架采用一种不同的方法来描画神经网络,具有两个主要的阵营:运用图形描画文件的阵营,以及经过执行代码来创建它们的描画的阵营。
思索到这一点,让我们来看看每一个框架的特性。
Caffe(咖啡)
Caffe深度学习项目,最初是一个强大的图像分类框架,似乎停滞不前,基于它的持续的bug,以及它已被卡住1.0版RC3一年多的事实,并且创始人已分开项目。它仍然有良好的卷积网络图像识别和良好的支持Nvidia CUDA GPU,以及一个简单的网络描画格式。另一方面,它的模型通常需求大量的GPU内存(超越1GB)运转,它的文档是多斑点和问题,支持很难获得,安装是iffy,特别是关于它的Python笔记本支持。
Caffe有命令行,Python和Matlab接口,它依托ProtoText文件来定义它的模型和求解器。 Caffe在其自己的模型方式中逐层定义网络。网络定义从输入数据到丧失的整个模型。当数据和派生数据在前向和后向遍历网络时,Caffe存储,通讯和操作信息为blob(二进制大对象),内部是以C连续方式存储的N维数组(表示行该数组被存储在连续的存储器块中,如在C言语中)。 Blob之于Caffe如Tensor之于TensorFlow。
图层对blob执行操作,并构成Caffe模型的组件。层卷积滤波器,执行池,取内部乘积,应用非线性(诸如整流线性和S形以及其他元素方面的变换),归一化,加载数据和计算诸如softmax和铰链的损失。
Caffe曾经证明其在图像分类中的有效性,但它的时辰似乎曾经过去了。除非现有的Caffe模型契合您的需求,或者可以根据您的目的中止微调,我建议运用TensorFlow,MXNet或CNTK。
在NBViewer中显现的预先计算的CaffeJupyter笔记本。这本笔记本解释了运用一只心爱的小猫在Caffe网络上做“手术”。
Microsoft Cognitive Toolkit(Microsoft认知工具包)
Microsoft Cognitive Toolkit是一个快速,易用的深度学习软件包,但与TensorFlow相比,其范围有限。它有各种各样的模型和算法,极好的支持Python和Jupyter笔记本,一个有趣的声明性神经网络配置言语BrainScript,以及在Windows和Ubuntu Linux环境下自动部署。
在缺陷方面,当我检查Beta 1的文档还没有完好更新到CNTK 2,并且包没有对MacOS支持。固然自Beta 1以来,CNTK 2有许多改进,包括新的内存紧缩方式,以减少GPU和新的Nuget安装包的内存运用,但对MacOS支持仍然缺失。
为Beta 1添加的PythonAPI有助于将认知工具包带入主流的、用Python码的、深度学习研讨人员当中。 API包含模型定义和计算、学习算法、数据读取和分布式锻炼的笼统。作为PythonAPI的补充,CNTK 2具有新的Python示例和教程,以及对 Google Protocol Buffer序列化的支持。教程以Jupyter笔记本完成。
CNTK 2组件可以处置来自Python,C ++或BrainScript的多维密集或稠密数据。认知工具包包括各种各样的神经网络类型:FFN(前馈),CNN(卷积),RNN/ LSTM(递归/长期短期记忆),批次标准化和序列留意序列。它支持强化学习,生成对立网络,监视和非监视学习,自动超参数调整,以及从Python添加新的,用户定义的中心组件在GPU上运转的才干。它能够在多个GPU和机器上做到精确的并行性,而且(微软声称)它以致可以顺应最大的模型到GPU内存。
CNTK 2 API支持从Python,C ++和BrainScript定义网络,学习者,读者,培训和评价。他们还支持运用C#中止评价。 Python API与NumPy互操作,并包括一个高级层级库,可以精确定义包括复往常内的高级神经网络。该工具包支持以符号方式表示循环模型作为神经网络中的循环,而不需求静态展开循环步骤。
您可以在Azure网络和GPU上锻炼CNTK 2模型。配备GPU的N系列Azure虚拟机系列,在我审核Beta 1时遭到限制,往常通常可以从Azure控制台获得并完好管理。
几个CNTK 2 / Microsoft Cognitive Toolkit教程以Jupyter笔记本提供。该图显现了Logistic回归锻炼的绘制的可视化。
MXNet
MXNet是一个可移植的、可伸缩的深度学习库,是亚马逊的DNN框架的选择,别离了神经网络几何的意味性声明与张量操作的命令性编程。 MXNet可跨多个主机扩展到多个GPU,接近线性扩展效率为85%,具有出色的开发速度、可编程性和可移植性。它支持Python,R,Scala,Julia和C ++,支持程度各不相同,它允许你混合符号和命令式编程作风。
在我第一次评论MXNet时,文档觉得还没有完成,除Python之外,我发现很少有其它言语的例子。自从我评论以后,这两种情况都有所改善。
MXNet平台是树立在一个动态依赖调度器上的,它可以自动并行化符号和命令式操作,但是你必需通知MXNet要运用哪些GPU和CPU中心。在调度器顶部的图优化层使符号执行快速和内存高效。
MXNet目前支持用Python,R,Scala,Julia和C ++构建和锻炼模型;锻炼的MXNet模型也可以用于Matlab和JavaScript中的预测。无论您选择哪种言语来构建模型,MXNet都会调用优化的C ++后端引擎。
MXNet作者以为他们的API是Torch、Theano、Chainer和Caffe提供的一个超集,固然对GPU集群有更多的可移植性和支持。在许多方面MXNet类似于TensorFlow,但增加了嵌入命令张量操作的才干。
除了理论强迫的MNIST数字分类之外,MXNet教程的计算机视觉包含运用卷积神经网络(CNN)的图像分类和分割,运用更快的R-CNN的对象检测,神经艺术和运用深度CNN的大范围图像分类和ImageNet数据集。还有自然言语处置、语音识别、对立网络以及监视和非监视机器学习的其他教程。
亚马逊测试了在P2.16xlarge实例上的MXNet中完成的Inception v3算法,发现其伸缩效率为85%。
Scikit-learn
Scikit-learn Python框架具有普遍的可靠的机器学习算法,但没有深度学习算法。假设你是一个Python粉丝,Scikit-learn可能是普通机器学习库中最佳选择。
Scikit-learn是一个强大的,成熟的机器学习Python库,包含各种各样成熟的算法和集成图。它相对容易安装、学习和运用,带有很好的例子和教程。
在另一方面,Scikit-learn不包括深度学习或强化学习,缺少图模型和序列预测,并且除Python之外,不能真正运用其它言语。它不支持PyPy,Python即时编译器或GPU。也就是说,除了它的少量进入神经网络,它不会真的有速度问题。它运用Cython(Python到C编译器)来处置需求快速的函数,例如内循环。
Scikit-learn对分类、回归、聚类、降维、模型选择和预处置算法具有很好的选择。它有一切这些的良好的文档和示例,但没有任何种类的指导工作流以完成这些任务。
Scikit-learn赢得了易于开发的最高分,主要是由于算法都像广告和文档一样工作,API是分歧的,设计良好,数据结构之间几乎没有“阻抗不匹配”。函数库其中的功用已彻底充实,错误彻底消弭,用来开发十分快乐。
本示例运用Scikit-learn的小手写数字数据集来演示运用Label Spreading模型的半监视学习。在1,797总样本中只需30个被标志。
另一方面,函数库没有涵盖深度学习或强化学习,这躲藏了当前困难但重要的问题,例如准确的图像分类和可靠的实时言语解析和翻译。显然,假设你对深度学习感兴味,你应该另觅他处。
但是,存在许多问题,从树立链接不同观察值的预测函数到分类观察值到学习未标志数据集的结构,这使得它们顺应于普通的老的机器学习,而不需求数十层的神经元,关于这些范畴 Scikit-learn 是非常好的选择。
Spark MLlib
Spark MLlib是Spark的开源机器学习库,提供了通用的机器学习算法,如分类、回归、聚类和协同过滤(但不包括DNN)以及特征提取、转换、维数降低工具,以及构建、评价和调整机器学习管道选择和工具。Spark MLlib还包括用于保管和加载算法、模型和管线、用于数据处置以及中止线性代数和统计的适用程序。
Spark MLlib是用Scala编写的,并运用线性代数包Breeze。 Breeze依托netlib-java来优化数值处置,固然在开源分布中意味着优化运用CPU。 Databricks提供与GPU配合运用的定制Spark集群,这有可能为您带来另一个10倍的速度改进,用于锻炼具有大数据的复杂机器学习模型。
MLlib完成了大量的分类和回归的常用算法和模型,新手可能变得紊乱不堪,无可适从,但专家最终可能会为分析数据找到一个很好的模型的数据。关于这么多的模型Spark2.x增加了超参数调优的重要特性,也称为模型选择。超参数t允许调优分析人员设置参数网格、估量器和评价器,并且它允许交叉考证方法(耗时但准确)或锻炼考证分割方法(更快但不太准确)找到最佳数据模型。
Spark MLlib具有针对Scala和Java的完好API,主要是针对Python的完好API以及针对R的粗略部分API。您可以经过计算示例来获得良好的掩盖率:54个Java和60个Scala机器学习示例,52个Python机器学习示例,只需五个R示例。在我的阅历中,Spark MLlib是最容易运用Jupyter笔记本,但你可以肯定地在控制台运转它,假设你降服细致的Spark状态消息。
Spark MLlib提供了你想要的基本机器学习、特性选择、管道和耐久性的任何东西。它在分类、回归、聚类和过滤方面做得相当不错。鉴于它是Spark的一部分,它具有访问数据库、流和其他数据源的强大访问权限。另一方面,SparkMLlib并不真正采用与TensorFlow,MXNet,Caffe和Microsoft Cognitive Toolkit相同的方式建模和锻炼深层神经网络。
Spark MLlibPython示例(Naive Bayes)作为Databricks笔记本。留意解释,代码和输出如何散布。
TensorFlow
TensorFlow,Google的可移植机器学习和神经网络库,执行和伸缩性很好,固然它有点难学。TensorFlow具有各种各样的模型和算法,它们对深度学习非常注重,并且在具有GPU(用于锻炼)或Google TPU(用于消费范围预测)的硬件上具有出色的性能。它还具有对Python的良好支持,良好的文档和良好的软件,用于显现和理解描画其计算的数据流图TensorBoard。
数据流图中的节点表示数学运算,而图的边表示在它们之间活动的多维数据数组(张量)。这种灵活的架构允许您将计算部署到桌面、效劳器或移动设备中的一个或多个CPU或GPU,而无需重写代码。
运用TensorFlow的主要言语是Python,固然对C ++有限的支持。TensorFlow提供的教程包括手写数字分类。图像识别、字嵌入、递归神经网络,用于机器翻译的序列到序列模型、自然言语处置和基于PDE(偏微分方程)的模拟的应用。
TensorFlow可以便当地处置各种神经网络,包括目前正在急剧变化的图像识别和言语处置范畴的深度CNN和LSTM递归模型。用于定义图层的代码可能fan,但是您便当但不细致,可以运用三个可选的深度学习界面中的任何一个来修复它。固然调试异步网络求解器可以是平凡的,但TensorBoard软件可以辅佐您可视化图。
TensorBoard显现TensorFlow计算的图形。我们放大了几个部分来检查图形的细节。
总结
关于任何给定的预测任务,您应该运用哪种机器学习或深度学习包取决于机器学习的复杂性,用于锻炼的数据量和方式,您的计算资源以及您的编程言语偏好和技艺。它也可能取决于您能否喜欢运用代码或配置文件定义模型。
但是,在开端自己的模型锻炼调查之前,您可能希望了解来自Google,HPE和MicrosoftAzure云的任何预先锻炼的应用机器学习效劳能否能够处置您的数据,无论是语音、文本或图像。假设他们对你的数据不能很好地工作,你可能还想在尝试基本的机器学习锻炼(最后,假设没有其他工作)深度学习锻炼之前,看看你能用简单的统计方法获得多大的好处。这里的准绳是坚持分析尽可能简单,但不是更简单。
在我讨论的两个基本的机器学习包,我建议喜欢Scala和在Hadoop中有他们的数据的运用Spark MLlib 。我建议喜欢Python的人Scikit-learn。
我应该提到那些喜欢Scala(和Java)的人和在Hadoop中有他们的数据的人的另一个选择事Deeplearning4j。我没有评论他,但是,由于其称号意味着它是一个学习深度包。
选择Caffe,Microsoft Cognitive Toolkit,MXNet和TensorFlow的深度学习包是一个更困难的决议。我不再建议运用Caffe,由于它的展开停滞不前。但是,选择其他三个中的一个仍然是棘手,由于关于具有类似功用,它们都是最好的选择。
Cognitive Toolkit往常有Python和C ++ API以及网络配置言语BrainScript。假设您喜欢运用配置文件而不是编程网络拓扑,那么CognitiveToolkit可能是一个不错的选择。另一方面,它似乎不像TensorFlow一样成熟,它不能在MacOS上运转。
MXNet支持Python、R、Scala、Julia和C ++,但其支持最好的API是用Python开发的。 MXNet在多个主机上的多个GPU上展示出良好的伸缩性(85%的线性)。当我评论MXNet的文档和示例是吝啬的,但他们曾经改进了。
TensorFlow可能是三个包中最成熟的,并且它是一个很好的选择,只需你喜欢编写Python,并可以抑制学习曲线。 TensorFlow具有你可以运用基本的构建块,它给你细粒度的控制,但也需求你编写大量的代码来描画一个神经网络。有三个简化的API与TensorFlow一同工作来处置这个问题:tf.contrib.learn,TF-Slim和Keras。
Caffe,CNTK,DeepLearning4j,Keras,MXNet和TensorFlow是深度学习框架。 Scikit-learning和Spark MLlib是机器学习框架。 Theano逾越了这两个类别。
普通来说,深层神经网络计算在GPU(特别是Nvidia CUDA通用GPU,大多数框架)上运转的速度要比CPU快一个数量级。普通来说,更简单的机器学习方法不需求GPU的加速。
固然你可以在一个或多个CPU上锻炼DNN,锻炼常常是缓慢的,慢慢我不是说秒或分钟。需求锻炼的神经元和层数越多,可用于锻炼的数据越多,需求的时间就越长。当Google Brain小组在2016年针对新版Google翻译锻炼言语翻译模型时,他们在多个GPU上同时运转了一周的锻炼时间。没有GPU,每个模型锻炼实验将需求几个月。
这些框架中每一个框架具有至少一个显著特征。 Caffe的强项是用于图像识别的卷积DNN。 Cognitive Toolkit有一个单独的评价库,用于部署在ASP.Net网站上工作的预测模型。 MXNet具有良好的可扩展性,可用于多GPU和多机器配置的锻炼。 Scikit-learn具有普遍的强大的机器学习方法,易学已用。 Spark MLlib与Hadoop集成,具有良好的机器学习可伸缩性。 TensorFlow为其网络图TensorBoard提供了一个共同的诊断工具。
另一方面,一切深度学习框架在GPU上的锻炼速度几乎相同。这是由于锻炼内循环在Nvidia CuDNN包中花费大部分时间。但是,每个框架采用一种不同的方法来描画神经网络,具有两个主要的阵营:运用图形描画文件的阵营,以及经过执行代码来创建它们的描画的阵营。
思索到这一点,让我们来看看每一个框架的特性。
Caffe(咖啡)
Caffe深度学习项目,最初是一个强大的图像分类框架,似乎停滞不前,基于它的持续的bug,以及它已被卡住1.0版RC3一年多的事实,并且创始人已分开项目。它仍然有良好的卷积网络图像识别和良好的支持Nvidia CUDA GPU,以及一个简单的网络描画格式。另一方面,它的模型通常需求大量的GPU内存(超越1GB)运转,它的文档是多斑点和问题,支持很难获得,安装是iffy,特别是关于它的Python笔记本支持。
Caffe有命令行,Python和Matlab接口,它依托ProtoText文件来定义它的模型和求解器。 Caffe在其自己的模型方式中逐层定义网络。网络定义从输入数据到丧失的整个模型。当数据和派生数据在前向和后向遍历网络时,Caffe存储,通讯和操作信息为blob(二进制大对象),内部是以C连续方式存储的N维数组(表示行该数组被存储在连续的存储器块中,如在C言语中)。 Blob之于Caffe如Tensor之于TensorFlow。
图层对blob执行操作,并构成Caffe模型的组件。层卷积滤波器,执行池,取内部乘积,应用非线性(诸如整流线性和S形以及其他元素方面的变换),归一化,加载数据和计算诸如softmax和铰链的损失。
Caffe曾经证明其在图像分类中的有效性,但它的时辰似乎曾经过去了。除非现有的Caffe模型契合您的需求,或者可以根据您的目的中止微调,我建议运用TensorFlow,MXNet或CNTK。
在NBViewer中显现的预先计算的CaffeJupyter笔记本。这本笔记本解释了运用一只心爱的小猫在Caffe网络上做“手术”。
Microsoft Cognitive Toolkit(Microsoft认知工具包)
Microsoft Cognitive Toolkit是一个快速,易用的深度学习软件包,但与TensorFlow相比,其范围有限。它有各种各样的模型和算法,极好的支持Python和Jupyter笔记本,一个有趣的声明性神经网络配置言语BrainScript,以及在Windows和Ubuntu Linux环境下自动部署。
在缺陷方面,当我检查Beta 1的文档还没有完好更新到CNTK 2,并且包没有对MacOS支持。固然自Beta 1以来,CNTK 2有许多改进,包括新的内存紧缩方式,以减少GPU和新的Nuget安装包的内存运用,但对MacOS支持仍然缺失。
为Beta 1添加的PythonAPI有助于将认知工具包带入主流的、用Python码的、深度学习研讨人员当中。 API包含模型定义和计算、学习算法、数据读取和分布式锻炼的笼统。作为PythonAPI的补充,CNTK 2具有新的Python示例和教程,以及对 Google Protocol Buffer序列化的支持。教程以Jupyter笔记本完成。
CNTK 2组件可以处置来自Python,C ++或BrainScript的多维密集或稠密数据。认知工具包包括各种各样的神经网络类型:FFN(前馈),CNN(卷积),RNN/ LSTM(递归/长期短期记忆),批次标准化和序列留意序列。它支持强化学习,生成对立网络,监视和非监视学习,自动超参数调整,以及从Python添加新的,用户定义的中心组件在GPU上运转的才干。它能够在多个GPU和机器上做到精确的并行性,而且(微软声称)它以致可以顺应最大的模型到GPU内存。
CNTK 2 API支持从Python,C ++和BrainScript定义网络,学习者,读者,培训和评价。他们还支持运用C#中止评价。 Python API与NumPy互操作,并包括一个高级层级库,可以精确定义包括复往常内的高级神经网络。该工具包支持以符号方式表示循环模型作为神经网络中的循环,而不需求静态展开循环步骤。
您可以在Azure网络和GPU上锻炼CNTK 2模型。配备GPU的N系列Azure虚拟机系列,在我审核Beta 1时遭到限制,往常通常可以从Azure控制台获得并完好管理。
几个CNTK 2 / Microsoft Cognitive Toolkit教程以Jupyter笔记本提供。该图显现了Logistic回归锻炼的绘制的可视化。
MXNet
MXNet是一个可移植的、可伸缩的深度学习库,是亚马逊的DNN框架的选择,别离了神经网络几何的意味性声明与张量操作的命令性编程。 MXNet可跨多个主机扩展到多个GPU,接近线性扩展效率为85%,具有出色的开发速度、可编程性和可移植性。它支持Python,R,Scala,Julia和C ++,支持程度各不相同,它允许你混合符号和命令式编程作风。
在我第一次评论MXNet时,文档觉得还没有完成,除Python之外,我发现很少有其它言语的例子。自从我评论以后,这两种情况都有所改善。
MXNet平台是树立在一个动态依赖调度器上的,它可以自动并行化符号和命令式操作,但是你必需通知MXNet要运用哪些GPU和CPU中心。在调度器顶部的图优化层使符号执行快速和内存高效。
MXNet目前支持用Python,R,Scala,Julia和C ++构建和锻炼模型;锻炼的MXNet模型也可以用于Matlab和JavaScript中的预测。无论您选择哪种言语来构建模型,MXNet都会调用优化的C ++后端引擎。
MXNet作者以为他们的API是Torch、Theano、Chainer和Caffe提供的一个超集,固然对GPU集群有更多的可移植性和支持。在许多方面MXNet类似于TensorFlow,但增加了嵌入命令张量操作的才干。
除了理论强迫的MNIST数字分类之外,MXNet教程的计算机视觉包含运用卷积神经网络(CNN)的图像分类和分割,运用更快的R-CNN的对象检测,神经艺术和运用深度CNN的大范围图像分类和ImageNet数据集。还有自然言语处置、语音识别、对立网络以及监视和非监视机器学习的其他教程。
亚马逊测试了在P2.16xlarge实例上的MXNet中完成的Inception v3算法,发现其伸缩效率为85%。
Scikit-learn
Scikit-learn Python框架具有普遍的可靠的机器学习算法,但没有深度学习算法。假设你是一个Python粉丝,Scikit-learn可能是普通机器学习库中最佳选择。
Scikit-learn是一个强大的,成熟的机器学习Python库,包含各种各样成熟的算法和集成图。它相对容易安装、学习和运用,带有很好的例子和教程。
在另一方面,Scikit-learn不包括深度学习或强化学习,缺少图模型和序列预测,并且除Python之外,不能真正运用其它言语。它不支持PyPy,Python即时编译器或GPU。也就是说,除了它的少量进入神经网络,它不会真的有速度问题。它运用Cython(Python到C编译器)来处置需求快速的函数,例如内循环。
Scikit-learn对分类、回归、聚类、降维、模型选择和预处置算法具有很好的选择。它有一切这些的良好的文档和示例,但没有任何种类的指导工作流以完成这些任务。
Scikit-learn赢得了易于开发的最高分,主要是由于算法都像广告和文档一样工作,API是分歧的,设计良好,数据结构之间几乎没有“阻抗不匹配”。函数库其中的功用已彻底充实,错误彻底消弭,用来开发十分快乐。
本示例运用Scikit-learn的小手写数字数据集来演示运用Label Spreading模型的半监视学习。在1,797总样本中只需30个被标志。
另一方面,函数库没有涵盖深度学习或强化学习,这躲藏了当前困难但重要的问题,例如准确的图像分类和可靠的实时言语解析和翻译。显然,假设你对深度学习感兴味,你应该另觅他处。
但是,存在许多问题,从树立链接不同观察值的预测函数到分类观察值到学习未标志数据集的结构,这使得它们顺应于普通的老的机器学习,而不需求数十层的神经元,关于这些范畴 Scikit-learn 是非常好的选择。
Spark MLlib
Spark MLlib是Spark的开源机器学习库,提供了通用的机器学习算法,如分类、回归、聚类和协同过滤(但不包括DNN)以及特征提取、转换、维数降低工具,以及构建、评价和调整机器学习管道选择和工具。Spark MLlib还包括用于保管和加载算法、模型和管线、用于数据处置以及中止线性代数和统计的适用程序。
Spark MLlib是用Scala编写的,并运用线性代数包Breeze。 Breeze依托netlib-java来优化数值处置,固然在开源分布中意味着优化运用CPU。 Databricks提供与GPU配合运用的定制Spark集群,这有可能为您带来另一个10倍的速度改进,用于锻炼具有大数据的复杂机器学习模型。
MLlib完成了大量的分类和回归的常用算法和模型,新手可能变得紊乱不堪,无可适从,但专家最终可能会为分析数据找到一个很好的模型的数据。关于这么多的模型Spark2.x增加了超参数调优的重要特性,也称为模型选择。超参数t允许调优分析人员设置参数网格、估量器和评价器,并且它允许交叉考证方法(耗时但准确)或锻炼考证分割方法(更快但不太准确)找到最佳数据模型。
Spark MLlib具有针对Scala和Java的完好API,主要是针对Python的完好API以及针对R的粗略部分API。您可以经过计算示例来获得良好的掩盖率:54个Java和60个Scala机器学习示例,52个Python机器学习示例,只需五个R示例。在我的阅历中,Spark MLlib是最容易运用Jupyter笔记本,但你可以肯定地在控制台运转它,假设你降服细致的Spark状态消息。
Spark MLlib提供了你想要的基本机器学习、特性选择、管道和耐久性的任何东西。它在分类、回归、聚类和过滤方面做得相当不错。鉴于它是Spark的一部分,它具有访问数据库、流和其他数据源的强大访问权限。另一方面,SparkMLlib并不真正采用与TensorFlow,MXNet,Caffe和Microsoft Cognitive Toolkit相同的方式建模和锻炼深层神经网络。
Spark MLlibPython示例(Naive Bayes)作为Databricks笔记本。留意解释,代码和输出如何散布。
TensorFlow
TensorFlow,Google的可移植机器学习和神经网络库,执行和伸缩性很好,固然它有点难学。TensorFlow具有各种各样的模型和算法,它们对深度学习非常注重,并且在具有GPU(用于锻炼)或Google TPU(用于消费范围预测)的硬件上具有出色的性能。它还具有对Python的良好支持,良好的文档和良好的软件,用于显现和理解描画其计算的数据流图TensorBoard。
数据流图中的节点表示数学运算,而图的边表示在它们之间活动的多维数据数组(张量)。这种灵活的架构允许您将计算部署到桌面、效劳器或移动设备中的一个或多个CPU或GPU,而无需重写代码。
运用TensorFlow的主要言语是Python,固然对C ++有限的支持。TensorFlow提供的教程包括手写数字分类。图像识别、字嵌入、递归神经网络,用于机器翻译的序列到序列模型、自然言语处置和基于PDE(偏微分方程)的模拟的应用。
TensorFlow可以便当地处置各种神经网络,包括目前正在急剧变化的图像识别和言语处置范畴的深度CNN和LSTM递归模型。用于定义图层的代码可能fan,但是您便当但不细致,可以运用三个可选的深度学习界面中的任何一个来修复它。固然调试异步网络求解器可以是平凡的,但TensorBoard软件可以辅佐您可视化图。
TensorBoard显现TensorFlow计算的图形。我们放大了几个部分来检查图形的细节。
总结
关于任何给定的预测任务,您应该运用哪种机器学习或深度学习包取决于机器学习的复杂性,用于锻炼的数据量和方式,您的计算资源以及您的编程言语偏好和技艺。它也可能取决于您能否喜欢运用代码或配置文件定义模型。
但是,在开端自己的模型锻炼调查之前,您可能希望了解来自Google,HPE和MicrosoftAzure云的任何预先锻炼的应用机器学习效劳能否能够处置您的数据,无论是语音、文本或图像。假设他们对你的数据不能很好地工作,你可能还想在尝试基本的机器学习锻炼(最后,假设没有其他工作)深度学习锻炼之前,看看你能用简单的统计方法获得多大的好处。这里的准绳是坚持分析尽可能简单,但不是更简单。
在我讨论的两个基本的机器学习包,我建议喜欢Scala和在Hadoop中有他们的数据的运用Spark MLlib 。我建议喜欢Python的人Scikit-learn。
我应该提到那些喜欢Scala(和Java)的人和在Hadoop中有他们的数据的人的另一个选择事Deeplearning4j。我没有评论他,但是,由于其称号意味着它是一个学习深度包。
选择Caffe,Microsoft Cognitive Toolkit,MXNet和TensorFlow的深度学习包是一个更困难的决议。我不再建议运用Caffe,由于它的展开停滞不前。但是,选择其他三个中的一个仍然是棘手,由于关于具有类似功用,它们都是最好的选择。
Cognitive Toolkit往常有Python和C ++ API以及网络配置言语BrainScript。假设您喜欢运用配置文件而不是编程网络拓扑,那么CognitiveToolkit可能是一个不错的选择。另一方面,它似乎不像TensorFlow一样成熟,它不能在MacOS上运转。
MXNet支持Python、R、Scala、Julia和C ++,但其支持最好的API是用Python开发的。 MXNet在多个主机上的多个GPU上展示出良好的伸缩性(85%的线性)。当我评论MXNet的文档和示例是吝啬的,但他们曾经改进了。
TensorFlow可能是三个包中最成熟的,并且它是一个很好的选择,只需你喜欢编写Python,并可以抑制学习曲线。 TensorFlow具有你可以运用基本的构建块,它给你细粒度的控制,但也需求你编写大量的代码来描画一个神经网络。有三个简化的API与TensorFlow一同工作来处置这个问题:tf.contrib.learn,TF-Slim和Keras。
上一条:深度学习图像分割的常用方法
下一条:AI、机器学习和深度学习的区别