图灵错了吗? —— 后图灵时代的开启

作者: 杨强 
点评:杨静lillian   lillian_yang_1111

时间:2015-03-17

 

【静点评】2015年第10期《三联生活周刊》的封面专题为《图灵预言——人工智能将代替人类吗?》,其中对图灵的生平及其对人工智能和计算机科学的卓越成就进行了回顾,有不少篇幅涉及图灵测试。然而对图灵测试在量化人工智能方面的局限,无论是企业界还是学术界,都有痛点。图灵测试的标准是否该与时俱进?是个严肃的课题,值得国际人工智能业界共同推动。而后图灵时代的开启,则不仅需要严谨的体系建构,更需要百家争鸣,共商大计。

今天就给大家推荐杨强教授刊发于福布斯杂志的文章作为开篇。

图灵错了吗? —— 后图灵时代的开启

 

【杨强】香港科技大学计算机和工程系主任,大学冠名讲座教授, 2015年国际人工智能大会主席。主要研究人工智能和大数据。 于1982年和1989年分别获得北京大学天体物理专业学士学位和美国马里兰大学计算机系博士学位。他是国际人工智能协会(AAAI)首个华人Fellow和IEEE等国际协会的Fellow,ACM杰出科学家。

智能测试并不容易

20世纪初,一匹叫“汉斯”(Hans)的马引起了巨大的轰动。它具有惊人的数学能力:这匹马不仅可以把写在黑板上的数字数出来,还掌握了好几种数学运算方法,包括加减乘除。任何在场的人都可以提出一个数学问题让汉斯来回答。只要答案是整数,汉斯都可以用蹄子敲击地板,并用敲击的次数来代表答案。用这个办法,它甚至可以回答这样的问题:“如果一个月的第八天是星期二,那么紧接着的那个星期五是这个月的第几天?”

这个事儿可不得了:向来只有人类才被认为具有数学能力,而汉斯却是一匹马!所以,大家都争相来看汉斯表演,并称它为“聪明的汉斯。”

汉斯在回答问题。来源: 维基百科

汉斯的数学天赋引起了各行各业广泛的关注。也有人提出质疑,所以人们成立了一个专家组来判别真伪。这个组包括著名的心理学家,动物园园长,兽医以及骑兵军官。专家组的鉴定结论是:这事儿是真的,没有造假的痕迹!

但是,有一位心理学教授却不相信这样的结论,并坚持要找出汉斯的破绽。他做了各种实验,包括把提问者和观众隔离,把汉斯的眼睛蒙起来,让它看不到提问者等。 通过长期的调查他发现,当问题太难而没有人知道答案时,汉斯也会答错!通过这样的手段,教授断定,汉斯不是真的会思维,而主人也没有有意地在进行欺骗。事实是,提问题的人们,在汉斯的蹄子敲到正确答案时,会有细微的反应,比如突然放松或微微地昂头,甚至鼻孔略放大等。汉斯具有超强的观察能力,能够捕捉到提问者的这些细微的表情变化,并给出正确的答案。

“聪明的汉斯”这件事说明,智能的测试是一个非常复杂的事情。虽然汉斯这匹马不具有智能,但汉斯加上提问者的这个整体却具有智能。 要测试出真正“智能”的能力,是要费尽苦心的。

同样的道理也适用于对机器的智能测试。看过“模仿游戏”这个电影的人都知道,图灵的灵感来自于一个他设计的“模仿游戏”:如果在一个裁判问了很多问题以后,还不能区分对方是人或计算机的话,那么这个计算机就可以被认为是具有智能和思维能力的了!

图灵测试难不难?图灵举了一个例子来说明:

裁判:我们现在来读你的诗:“第一行里 ‘我把你比作夏日’,或‘我把你比作春天里的一天’,这两句到底哪一个比喻更好?

回答:这个很难讲。

裁判:把第一句改成 ‘冬季的一天’,是不是更好?

回答:但没有人要比把自己比喻成冬季的一天。

裁判:Pickwick先生是不是让你想到了圣诞节?(Pickwick先生是狄更斯小说里的人物)

回答:有点儿。

裁判:不过圣诞节是冬季的一天,我认为Pickwick先生不会介意这样的比较的。

回答:你不会不知道吧?‘冬季的一天’常常意味着一个特指的某个冬天的一天,而不是泛指的圣诞节。

看了这样的对话,读者也会觉得对方是个人吗?

这个例子说明,计算机要通过图灵测试,它不仅需要会查字典,还要能理解文学,进行类比,有一般人类的常识以及逻辑推理能力。

但是,即使计算机通过了这样的图灵测试,就能说明计算机可以思维了吗?

关于图灵测试的质疑

美国的哲学家约翰·塞尔(John Searle)用一个“中文屋子”的例子来说明他对图灵测试的不同观点:假设有一个字典把中文的问题和答案相对应。那么,一个不懂中文的人,可以依靠这个字典来圆满地回答中文问题。对于旁观者来说,回答问题的个人貌似是懂中文的,但实际上是他和这个字典的整体在回答问题。也就是说,即便有一台计算机通过了图灵测试,我们也不能说计算机真正地具备了人类的思维能力,因为这台计算机很可能是通过某种字典来回答图灵测试中的问题。

“中文屋子”的质疑让我们联想到文章开始提到的“聪明的汉斯。” 在“中文屋子”的实验里,人和字典作为整体可以被认为有中文的理解能力,但这不表明回答问题的人具有这个能力。那么,有着强大记忆能力的计算机,即使通过了图灵测试,是不是也不能被认为是具有智能的思维能力了呢?

“聪明的汉斯”和“中文屋子”的共性是被测试者和周边的环境一起参加测试,从而导致了裁判误以为被测试者是具有智能的。下面这个例子,是被测试者成功改变了裁判对智能的预期,从而顺利地通过了测试。

最近,在英国的雷丁大学,一个聊天程序成功地让三分之一的裁判们相信它是一个人。为了引导裁判们来问一些跟更为简单的问题,设计者们把计算机伪装成了一个13岁的乌克兰男孩儿。这样,裁判们自然地降低了他们的标准,因为他们认为对方的母语不是英语。 有些人因而声称这是人类首次通过了图灵测试。但是,质疑者们也在问:这到底是人工智能的成功还是裁判在手下留情?那么,到底是这个程序具有智能,还是程序加上想出这个鬼点子的程序员具有智能呢?更深一层的问题是:这样对人类进行欺骗很有意思吗?

后图灵时代

“图灵测试”可以误导某些研究人员为了骗过裁判而想些歪点子。这种可能性也驱使人们去思考这个测试的不足。图灵测试从提出到现在已经有六十多年了。 学者们终于开始提问:图灵测试错了吗?它是智能的唯一标准吗?

2015年一月份,在德克萨斯州召开的美国人工智能大会(AAAI-15)上,学者专门组织了一个研讨会,题目叫做“后图灵时代”(Beyond Turing Test).会上,大家各抒己见,对图灵测试进行深入的审视,并对智能的标准提出新的建议。

《ACM通讯》(Communications of ACM)杂志的主编瓦迪(Moshe Vardi)教授问道:图灵自己能通过图灵测试吗?瓦迪的观点是,如果让一个不善言辞的人,比如图灵本人,来参与图灵测试,所得的结果很可能是这个被测试者不被认为是人类。图灵的“机器能思维吗?”这个问题本身就问错了。这是因为思维是人的特性,而机器的特性是可以产生各种行为。比方说飞机具有能飞行这样的行为。我们真正应该问的问题是:计算机是不是具备智能的行为特性呢? 针对这种智能行为的测试标准是什么呢?瓦迪教授推测,这样的智能行为测试很可能和图灵测试完全不一样!

瓦迪教授认为,计算机的智能特性不能用单一的测试来检验,而应该用一系列的测试来证明,其中每一个测试都是针对一个不同的智能特点。瓦迪教授建议,让图灵测试离开科学的舞台吧,让我们引入不同类型的测试,比如开车、打球、下棋,这样我们可以把智能分段来实现。

计算机视觉的研究者们也提出了新的测试标准:基于图像的智能测试。 我们可以把这个叫做“图像图灵测试。” 德国的马克斯普朗克研究所的两位研究人员Mateusz Malinowski and Mario Fritz提出了一个“看图问答”的测试,让测试对象看着一幅照片来回答关于照片内容的问题。比如,要回答“桌子上可以切菜的东西是什么?”这样的问题,回答者不仅要看到什么东西放在桌子上,而且要知道刀子是可以用来切菜的。这种知识属于常识,而具有常识是智能的一个重要特征。

与“图像图灵测试”同时,科学杂志日报(Science Daily)报道了布朗大学和霍普金斯大学校的研究者所建议的一个测试:被测试的对象回答计算机提出的关于照片的问题,比如:“照片里的两个人在交谈吗?”通过一系列这样的问题,这些研究者们试图让计算机自动地区分回答者是人还是机器。

佐治亚技术学院的瑞德教授(Mark O. Riedl)指出,图灵测试的一个缺陷是它把人处在一个被‘欺骗’的地位,让人和电脑对立。这样做并没有把智能的本质体现出来,而瑞德教授认为,智能的本质在于创造力。他设计了一个叫做Lovelace2.0 版本的测试。 这个测试的命名来自Ada Lovelace这个19世纪的女子,她是世界上第一个程序员。Lovelace2.0 的测试范围包括:创作有虚拟故事的小说和诗歌创作,油画和音乐等。瑞德教授认为,如果程序所创作的内容把程序员和她的小伙伴们都惊呆了,那么计算机就可以被认为具有智能了。

图灵测试的另一个问题是它太像在五,六十年代盛行的IQ测试。那时的人们常用IQ测试来识别一个孩子的智力水平,并给孩子们打上标签。但到后来,教育学的学者们发现, 这样的测试只是一个非常片面的考试,因为它并没有测试孩子更广泛的天份,包括孩子们的学习能力,创造力和好奇心。

关于人的智能和认知,一个特别值得参考的领域是(JeanPiaget)的“展理论。” 皮亚杰认为:智力的发展是连续的。人最初的智力发展反应在、听、触等感与手的作上。婴儿从最简单的反射逐得复。 其后,在两到七儿童的展进入第二个段,遇到问题时会思维,虽然有可能并不合乎逻辑。第三个阶段适用于七至十一儿童:在他们遇到问题时,他们能够按照逻辑则进行推理,并从已有的知识推断新的知识。第四个阶段是十一以上青少年。在这个阶段,人可以进行抽象的逻辑思维,比如回答像“如果你是奥巴马,你会怎样做医改?”这样的问题。

这样看来,图灵测试只是在测验皮亚杰理论中的第四个阶段后面的一个点,但智能不应只是一个点,它应是一条或多条连续的曲线。莎士比亚说:“人是宇宙的精华,万物之灵长。”人类具有智能这一特性,是人类可以不断学习、发展、创造的独特基因,是人类优于机器和动物的最大特性。人类的智能,同时也是宇宙和自然界的奥妙之一。

所以,智能不是一个特定时间点上的特定值;“智能”二字,应该是对不断上升不断发展的创造力、想象力、对世界感知和反馈的能力的“趋势”的描述。因此,如果要对智能进行测试,就不应单单只测一个时点的值,而应该测试整个时间区间内曲线上升的趋势,即对其“导数”的测试。

基于这一理念,我们香港科技大学的研究小组在“后图灵时代”的研讨会上提出了一种新的测试叫“终生学习测试”:给计算机一系列的学习问题和所需的数据,然后观察计算机的知识水平。如果这个水平是随时间不断上升的,那么计算机就可以算是智能的。

利用“终生学习”的算法,我们可以训练一台计算机,让它不断地读书。在理解一本新书的时候,计算机可以利用所有过去所学到的知识来帮助其提高。这样的效果是可以不断在新的领域进行知识的迁移学习。计算机就像一个爱读书的孩子,在读了几百本书的以后,不断积累知识,其知识的理解能力也越来越高,书也读的越来越快!

“后图灵时代”的研讨会引起了广泛的关注。今年七月份在阿根廷举办的国际人工智能大会(IJCAI-2015)已经决定再次举办这个研讨会。迄今为止,研究人员还没有一个公平的比赛平台来展示智能的高低,这也许是因为大家一直认为人工智能的实现还是遥不可及的事。但随着科技的进步,人工智能的成就也超乎很多人的意料。所以,举办人工智能的“奥运会”也自然成为大家关心的议题。 在IJCAI-2015的研讨会上,人们将有机会第一次见到人工智能测试的世界级大赛。届时,人工智能驱动的计算机会在同一擂台上一比高低。我们会期待不同门派的选手、剑宗气宗、魔教丐帮都来一展身手,全新的明星算法也很可能会脱颖而出。

图灵之梦

1950年,图灵在他的经典文章《计算机器与智能》里写道:

智能的计算机应该具有以下这些人类才有的特点:善良,机智,美丽,友好,有进取心,有幽默感,明辨是非,犯错,坠入爱河,享受草莓和奶油冰激凌,使有爱心的人爱上它,从实践中学习有用的经验,像人一样偶尔用词不当,在自己的冥思中是个主角儿,像人类一样拥有不同类型的行为,并且学会创新。

很多这些特点并不能由“图灵测试”所覆盖。我们今天在人工智能的道路上继续探索,如果图灵在天有知,也会感到欣慰和期待吧?

来源:http://mp.weixin.qq.com/s?__biz=MzA4MjE5NjAzMg==&mid=204505620&idx=1&sn=db18974ae9146e6e3b59b9253fc614a3&scene=4#wechat_redirect

Tags :

留下你的评论