让AI机器拥有天赋

新闻分类

联系我们

地址：北京市海淀区北四环西路9号 ,主营：人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别，OCR识别等及智能识别技术。
电话：13146317170 廖经理
传真：
邮箱：398017534@qq.com

让AI机器拥有天赋

本期嘉宾为伊恩·古德费洛（Ian Goodfellow），他因提出了生成对立网络而出名，他被誉为“GAN之父”，以至被誉为人工智能范畴的顶级专家。

材料显现，古德费洛等人于2014年10月在Generative Adversarial Networks中提出了一个经过对立过程估量生成模型的新框架，框架中同时锻炼两个模型：捕获数据散布的生成模型G，和估量样原本自锻炼数据的概率的判别模型D。G的锻炼程序是将D错误的概率最大化，这个框架对应一个最大值集下限的双方对立游戏。能够证明在恣意函数G和D的空间中，存在独一的处理计划，使得G重现锻炼数据散布，而D=0.5。在G和D由多层感知器定义的状况下，整个系统能够用反向传播停止锻炼。在锻炼或生成样本期间，不需求任何马尔科夫链或展开的近似推理网络，实验经过对生成的样品的定性和定量评价证明了本框架的潜力。

经过让神经网络相互攻击，伊恩·古德费洛（Ian Goodfellow）发明出强大的人工智能（AI）工具，赋予机器以想象的才能，如今，他和我们其别人必需面对这种工具带来的结果。

2014年的的某个晚上，古德费洛和一名刚刚毕业的博士生共同喝酒庆贺。在的蒙特利尔颇受欢送的酒吧Les 3 Brasseurs，许多朋友恳求他的协助，由于他们正在开发一个棘手的项目，即能够本人创作图片的电脑。

生成对立网络的降生

这些研讨人员曾经在运用神经网络，即模拟人脑神经网络树立的松懈模型算法，作为“生成”模型来创立本人的新数据。但结果常常并不如人意：电脑生成的人脸图像常常是含糊的，或者呈现像丧失耳朵这样的错误。

古德费洛的朋友们提出的方案，是对构成照片的元素停止复杂的统计剖析，以协助机器本人创作图像。这就需求大量的数字运算，而古德费洛通知他们，这基本行不通。

但当他边喝啤酒边考虑这个问题时，忽然想出了一个主见。假如让两个神经网络对立会产生什么样的结果？朋友们都对此持疑心态度，所以当他回到家，女朋友曾经睡熟后，他决议试一试。古德费洛在最初的几个小时里停止编码，然后测试了他的软件，没想到第一次就获得了胜利。

古德费洛在那个夜晚开发出的技术如今被称为“生成对立网络”（GAN）。这一技术曾经在机器学习范畴引发了宏大的兴奋，并将其开发者变成了AI范畴的名人。

在过去的几年里，AI研讨人员运用一种叫做深度学习的技术获得了令人印象深入的停顿。提供足够图像给深度学习系统，它会从中学习，比方辨认一个行将穿越马路的行人。这种办法使得无人驾驶汽车和能驱动Alexa、Siri以及其他虚拟助手的对话技术成为可能。

可是，固然深度学习能够学会辨认事物，但他们并不擅长发明它们。GAN的目的就是赋予机器这品种似于想象的天赋。未来，计算机将会更好地享用原始数据，并计算出它们需求从中学到什么。这样做不只能让它们绘画或作曲，还将使它们减少对人类的依赖，能够自行学习理解世界及其运作方式。

往常，AI程序员们经常需求通知机器，在锻炼数据中到底有什么东西，比方数百万张图片中都有行人过马路的场景。这种办法不只本钱昂扬，而且劳动强度相当大。此外，哪怕是略微偏离了所承受的培训，AI系统处置图像数据时都会遭遇波折。而在未来，电脑将会更好地处置原始数据，并在不被告知的状况下计算出它们需求学习的内容。

这将标志着AI“无监视学习”的宏大进步。无人驾驶汽车能够在不分开车库的状况下理解许多不同的道路情况，机器人能够预见到忙碌仓库中可能遇到的障碍，而不需求再绕过它。

GAN的魔力在于两个神经网络之间的竞争

我们想象和考虑许多不同情形的才能是我们身为人类的重要组成局部。未来当科技历史学家回忆如今时，他们很可能会将GAN看作是发明具有人类认识的机器的重要进步。Facebook首席AI科学家雅恩·乐坤（Yann LeCun）把GAN称为“过去20年里深度学习范畴最酷的想法”。另一位AI大咖、百度前首席科学家吴恩达（Andrew Ng）也说，GAN代表着“重要的、基本性的进步”，这会为不时壮大的全球研讨者社区提供灵感。

古德费洛如今是谷歌Google Brain的研讨科学家，该团队位于加州山景城的谷歌总部中。当我最近在那里见到古德费洛时，他似乎依然对他的“巨星”位置感到诧异，称其“有点儿不敢置信”。或许同样令人感到诧异的是，他发现本人如今的大局部时间都要用来对付那些想用GAN作恶的人。

GAN的魔力在于两个神经网络之间的竞争。它模拟了绘画伪造者和艺术侦探之间的重复交锋，他们重复尝试相互诈骗。这两个网络都是运用相同数据集停止锻炼的，第一个系统被称为“发电机”，担任生成像照片或笔迹这样尽可能逼真的人工输出。第二个系统被称为“鉴别器”，它将发电机生成的东西与原始数据集中的真实图像停止比拟，并试图肯定哪些图像是真的，哪些是假的。在这些结果的根底上，发电机调整其参数以创立新的图像。这个过程重复持续，直到鉴别器再也无法分辨真假。

640?wx_fmt=jpeg
承受过真人秀明星照片锻炼的GAN本人生成了想象中的明星照

去年，在一个广为宣传的例子中，芯片巨头英伟达公司的研讨人员对AI停止了大量投资，经过研讨真实的明星锻炼了一个GAN系统，以生成虚拟的名人照片。固然并不是一切虚拟的假名星都是圆满的，但有些却十分逼真。与其他需求成千上万锻炼图像的机器学习办法不同，GAN只需几百张照片就会变得“技艺通晓”。

虽然这种想象的力气依然有限，但是只需承受过很多狗狗照片的锻炼，GAN就能产生令人信服的假狗图像，比方身上会有不同的斑点图案，但它不能想象出全新的动物。原始锻炼数据的质量对结果也有很大的影响。有这样一个生动的例子，GAN开端将随机字母融入到其组合的猫图中。由于锻炼数据中包含了来自互联网的猫图，这台机器经过自学，以为单词也是猫图的一局部。

640?wx_fmt=jpeg
让GAN好好工作是件棘手的事，假如呈现毛病，结果可能会很奇异

华盛顿大学机器学习研讨员佩德罗·多明戈斯（Pedro Domingos）说，GAN也喜怒无常。假如鉴别器太容易被捉弄，发电机的输出看起来就不太真实。而且，对两种决斗的神经网络停止校正是很艰难的，这也能够解释为何GAN有时会吐出许多奇异的东西，比方有两个头的动物。

不过，这些应战并没有让研讨人员却步。自从古德费洛及其同伴在2014年发表了关于他的发现首份研讨之后，曾经有数百篇与GAN相关的论文发表。该技术的一个粉丝以至创立了一个名为“GAN zoo”的网页，特地用来跟踪曾经开发出的各种版本技术。

GAN最明显的即时应用是在触及大量图像的范畴，比方视频游戏和时髦行业：比方，游戏角色在雨中会如何奔跑？但是瞻望将来，古德费洛以为GAN将推进更大的进步。他说:“有很多科学和工程范畴需求我们去优化一些东西。举例来说，我们需求更有效的药物，或者需求更高效的电池。这将是下一个大浪潮。”

在高能物理学中，科学家们运用强大的计算机来模仿数百个亚原子粒子的互相作用，比方欧洲核子研讨中心的大型强子对撞机。这些模仿是迟缓的，需求宏大的计算才能支持。耶鲁大学和劳伦斯伯克利国度实验室的研讨人员曾经开发出一种GAN，在应用现有模仿数据停止锻炼后，它可以对特定粒子的行为做出精确的预测，而且速度要快得多。

640?wx_fmt=jpeg
古德费洛的发现能够用来想象各种事物，包括新的室内设计

此外，医学研讨是另一个十分有前景的应用范畴，隐私问题意味着，研讨人员有时无法取得足够的真实病人数据，剖析为什么药物不起作用。宾夕法尼亚大学的凯西·格林（Casey Greene）说，GAN能够经过生成简直和真实状况一样好的假病人记载来协助处理这个问题。这些数据能够被更普遍地分享，有助于推进研讨，而真正的记载则遭到严厉的维护。

GAN具有黑暗的一面它们使问题变得更糟

但是，GAN也有黑暗的一面。关于那些想要影响股票价钱、选举结果等制造虚假新闻的人来说，被用于设计逼真假图的机器可谓是一件圆满武器。这种AI工具曾经被用来将其别人的头像安放在色情明星的身体上，并将某些行动强加在特定的政客嘴上。GAN没有制造这个问题，但是它们会使问题变得更糟。

在达特茅斯学院研讨数字取证问题的哈尼·法里德（Hany Farid）正在研讨更好的办法来辨认假视频，比方探测因吸入和呼出气体而招致的脸部颜色发作细微变化，GAN很难准确模拟这些。但他正告说，GAN将会反过来顺应这种状况。法里德说：“我们根本上处于弱势。”

这种“猫捉老鼠”的游戏也将在网络平安范畴发挥影响。研讨人员曾经在强调“黑盒”攻击的风险，在这种攻击中，GAN用来找出大量平安程序发现歹意软件的机器学习形式。经过揣测某个防御者的算法工作原理，攻击者能够躲开它并插入流氓代码。同样的办法也能够用来规避渣滓邮件过滤器和其他防御。

古德费洛深知其中的风险。如今，作为谷歌专注于让机器学习平安的团队担任人，他正告说，AI社区必需汲取以往创新浪潮的经验，技术专家需求提早考虑平安和隐私问题。以往，当他们认识到风险的时分，“坏人”曾经确立了明显的优势。古德费洛称:“很明显，我们曾经超越了起点，但希望我们能在平安问题上获得严重停顿。”

虽然如此，古德费洛并不以为会有一个地道的技术处理计划。相反，他以为，我们将不得不依赖于社会，比方教孩子们养成批判性思想，让他们承受诸如演讲和争辩课之类的东西。他说:“在演讲和争辩中，你是在和另一个学生竞争，而你在考虑如何制造误导的行动，或者如何正确地制造那些具有压服力的声明。”他很可能是对的，但他的结论是，技术不能处理假新闻问题，这不是很多人想听到的。

上一条：深度学习神经网络是如何给出预测结果的下一条：几种主流的AI编程语言