联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
背景
随同着2016年AlphaGo打败人类围棋冠军李世石,世界范围人工智能迅猛开展,人工智能要挟论也因而普遍传播,同时智能产品蓬勃开展,不时涌现。人工智能终究能不能超越人类?这些智能产品的智能终究到达什么程度?答复这些问题都需求用定量的办法测试智能系统的开展程度。
从1950年图灵测试提出以来,科学家曾经为人工智能开展的评价体系做了很多工作。1950年,图灵提出了著名的图灵实验,采用发问和人类裁判的办法,判别一台计算机能否具有同人相当的智力。作为最被普遍应用的人工智能测试办法,但图灵测试并不检验Ai的智能开展程度,只是判别智能系统能否与人类智能相同,而且受人为要素干扰太多,严重依赖于裁判者和被测试者的客观判别,因而常常有人在没有得到严厉考证的状况下声称其程序经过图灵测试,
2015年3月24日“美国科学院院刊(PNAS)发表一篇论文,提出一种新的图灵测试办法“Visual Turing test” ,这种测试办法用来对计算机的图像认知才能停止更为深化的评价。
2014年美国佐治亚技术学院的瑞德教授(Mark O. Riedl)以为,智能的实质在于发明力。他设计了一个叫做Lovelace 2.0版本的测试。Lovelace 2.0的测试范围包括:创作有虚拟故事的小说、诗歌创作、油画和音乐等。
在处理人工智能定量测试的问题上,包括图灵测试在内的各种计划还存在两个问题:第一,这些测试办法没有构成统一的智能模型,并以此为根底停止剖析,辨别智能的多个分类。招致无法将不同的智能系统包括人类停止统一的测试;第二是这些测试办法无法定量剖析人工智能,或者只定量剖析智能的某个方面,但这个系统终究到达人类聪慧的百分之几,开展速度与人类聪慧开展速度比率如何,这些问题在上述研讨中没有触及。
针对这些问题,研讨团队提出:依据评测目的的不同,智能系统的智能程度评价存在三种智商,分别是:智能系统的通用智商,效劳智商和价值智商。这三种智商的理论根底,细致定义和评测办法将在以下内容中做细致论述。
1.理论根底:规范智能系统和扩展的冯诺依曼架构
对智能系统包括人类和人工智能系统的智力才能停止评测面临两个重要应战:第一,人工智能系统目前没有构成统一的模型;第二,人工智能系统与以人类为代表的生命体之间的比拟目前没有统一的模型。
针对这一问题,2014年 ,中科院虚拟经济与数据科学研讨中心同时也是将来智能实验室研讨团队成员,刘锋,石勇,刘颖参考冯·诺伊曼构造、戴维·韦克斯勒人类智力模型、学问管理范畴DIKW模型体系等。提出“规范智能模型”,统一描绘人工智能系统和人类的特征和属性,将任何一个智能体视为一个具有“学问的获取,控制,创新和反应”的系统。
基于这个模型与冯诺依曼架构分离,能够构成扩展的冯诺依曼架构,相比冯诺依曼架构,这个模型增加了创新发明功用,即可以依据已有的学问,发现新的学问元素和新的规律,使之进入到存储器,供计算机和控制器运用,并经过输入/输出系统与外部停止学问交互。第二个增加的是可以停止学问共享的外部学问库或云存储器,而冯·诺伊曼架构的外部存储只为单一系统效劳。扩展的冯诺依曼架构在构建AI的智商中将起到重要的作用。
2.智能系统三种不同智商的定义
2.1 AI通用智商的提出
基于规范智能模型,研讨团队树立AI智商测试量表,分别与2014年和2016年对包括谷歌、Siri、百度、Bing等50多个人工智能系统和6岁,12岁和18岁人群停止AI智商测试。从测试结果看,谷歌、百度等人工智能系统的性能比两年前已有大幅进步,但仍与6岁儿童有一定差距.
应该说上述AI智商测试是为理解决AI能否超越人类智能这个问题而展开的,这个研讨是将每一个智能系统包括机器人,AI软件系统,人类,动物和其他生物当做对等的智能体,察看其与自然界,其他智能体在交互中显现出来的智能程度。
AI通用智商的定义如下:基于规范智能模型,为理解决“评价各智能系统开展程度上下”的问题,将各智能系统视为对等的智能体,经过统一的AI智商测试量表构成的智能评测分数,能够称为AI系统的通用智商Artificial intelligence ?General intelligence quotient (AI ?G IQ)。
2.2. AI效劳智商的提出
在理论中,我们发现除了少数AI系统的产生是出于科学实验目的,不为人类提供辅助性效劳,其他大多数AI系统是为了更好的效劳于人类而被制造出来,它的智能也主要表现在为人类效劳的过程中,智能程度越高,也就能更好的为人类提供效劳。
这种状况下,假如用AI的通用智商规范停止评测,就明显与产品的最初被制造出来的目的有严重差别。这就需求我们依据此类AI系统的特性,基于规范智能模型,选择与效劳相关的指标停止评测,
这些指标与AI的通用智商评测指标有相关性,但又有比拟大的差别。包括对人工智能的法律,伦理道德等约束条件也应该放在智能系统效劳智商中。而不用放在智能系统的通用智商中。
AI效劳智商的定义:基于规范智能模型,为了答复“智能系统如何才是更好的效劳于人类”的问题,对智能产品在效劳过程中表现的智能程度停止测试,并构成的智能评测分数,能够称为AI系统的效劳智商,Artificial intelligence ?seveice intelligence quotient (AI S IQ)。
2.3.AI价值智商提出
为人类提供效劳或支撑性工作的AI系统,常常会由不同的公司和企业提供相应的智能产品,例如智能音箱就有亚马逊、百度等品牌,智能聊天机器人包括科大讯飞、苹果Siri等,由于是由不同企业消费制造,完成相同或相近功用,每个企业的造价或售价也会不同,效劳智商与本钱或价钱关联会抵消费者购置智能产品产生重要的影响。
AI价值智商的定义:基于规范智能模型,为了协助运用者判别需求用多大经济代价取得智能系统的智力才能, 将智能系统的效劳智商除以该系统的出卖价钱,构成的智能评测分数,能够称为AI系统的价值智商,Artificial intelligence ?Value intelligence quotient (AI V IQ)。
3.智能系统通用智商和效劳智商的测试量表设计。
3.1.智能系统通用智商的测试量表
为理解决AI能否超越人类聪慧的问题,2014年开端,本文研讨者依据规范智能模型把智能分为“学问的获取,控制,创新和反应”四类才能,在这四类之下又分红15个小分类才能,从更多维度评测AI,人类的智能。这15个小分类是:图像、文字、声音的辨认和输出,常识、计算、翻译、排列,创作、挑癣猜想、发现等才能,每个小分类有不同的权重。
2017年,依据人工智能的开展和对智能的最新研讨。研讨团队将AI通用智商评丈量表从测试分类和分类权重停止调整,主要调整的内容增加了:1.辨认动态图像的才能,2.心情的辨认与表达才能,3.辨认敌我的才能,4.假装真实企图的才能,5.完成挪动定位的才能,6.完成改造世界的才能。除此之外对常识和创作的测试也做了更为细化的工作。
令智能系统的通用智商为IQAIG,FGi是二级评价指标项得分,WGi是二级评价指标项的权重,N是评价指标项的个数。因而智能系统的通用智商公式如下:
3.2.智能系统的效劳智商测试量表
目前存在大量智能系统,例如聊天机器人,智能化的搜索引擎,智能音箱,智能手机,智能汽车,智能洗衣机,智能冰箱等,它们大局部是作为商品效劳于人类的某一需求,这些智能系统能够称为智能产品。
在规范智能系统和扩展的冯诺依曼架构下,提炼他们共同的智能特征,并依据不同的效劳需求,构成如下智能系统效劳智商的测试量表。在这个效劳智商的测试量表中主要突出了以下几个方面.
1.感知四周智能系统和运用者身份的才能
2.与互联网云端交互的才能。
3.将本身内部情况实时显现给运用者,呈现毛病给予支持的才能
4.按契合当地法律和伦理道德效劳人类的才能
5.风险状况下维护运用者和其别人的才能
6.本身能源运用和自动补充的才能
智能系统的效劳智商为IQAIS,FSi是二级评价指标项得分,WSi是二级评价指标项的权重,N是评价指标项的个数。因而智能系统的效劳智商公式如下:
作为一个智能产品效劳智商的规范量表,为了尽量全面的掩盖不同品种的智能产品,在设计智能产品效劳智商测试量表时,在测试量表中从学问的获取,控制,创新和反应四个方面为同智能产品留下接口:
在学问的获取分类中增加了”其他”信息输入方式,用来评价智能产品在学问输入方面的新方式。
在学问的控制中,增加了“专业常识”,用来评价不同范畴智能产品的专业方面技艺,
在学问的输出才能中,增加其他输出才能,用来评价智能产品在学问输出方面的新方式。
3.3 AI价值智商的构成办法
依据智能系统AI价值智商(AIVIQ)的定义,假如该智能系统经过出卖变为产品效劳于人类,令智能系统的效劳智商为AISIQ,该智能产品的公开售价为P,构成智能系统价值智商的公式如下:
IQAIV=(IQAIS/p)*100
4.总结
经过AI三种智商以为,智能系统依据不同的运用和评测目的,能够有三种不同的智能程度评测办法和由此得出的三种智商:AI通用智商,AI效劳智商和AI的价值智商,其中AI的通用智商已在2014年以来的论文中停止深化研讨,也经过AI系统和人类的共同评测,剖析了谷歌,SiRi,百度等与人类通用智商的差别。