《计算机仍然不能做什么——人工理性批判》MIT版导言 (下)
Hubert L. Dreyfus 著
陈自富 译
转载自链接。
我们都是日常世界中的大师。考虑进入一个熟悉的类型的房间的经验,我们知道但不会诉诸于某些被房间结构所包含的事实,例如房间有地板、天花板和墙壁,墙壁上有窗户,以及地板上有家具。相反,我们关于房间通常如何呈现行为的感觉,以及处理我们通过慢步走过许多房间的经验的技巧,给予了我们相关性(relevance)的感觉。如果我们不是看门人,就不会熟练地处理灰尘,也不会注意到窗户是开着还是关着,除非感到闷热,那样我们就知道如何做才恰当。我们涉及关于房间的技能时时刻刻都在决定我们用什么来处理和用什么来忽略(但准备应用它时应该是一个合适的时机出现了)。这种全局性的熟悉(familiarity)把我们对房间的以往经验映射到当前动作,因此明显感性地经验到每个时点上什么是适合的,或者说简单地引导出需要做什么。
通常,在自然和社会世界中拥有海量经验的人类具有事物如何完成以及可期待到什么的直感。因此,无需基于对上下文无关事实的无目的表征的规划,我们全局性的熟悉(familiarity)使我们能回答什么是相关的以及忽略掉无关的内容。这种熟悉完全不同于我们对不熟悉的房间的知识,例如17世纪贵族的房间。在那种房间中,我们的知识看上去象一个数据库可能具有的那类知识。但是即使詹姆士一世时期的客厅及其摆设都各在其位的话,我们仍然会找不到方向。我们不会知道应注意什么或者如何恰当行动。
全局感性(或者其想象)决定了局势相关性,因为我们的世界是由那些前概念的意义组织的。就它们而言,对象和事件是作为某种事物被经验的。它们所产生的我们的日常应对技巧以及全局性的熟悉决定了什么被当作事实,以及所有事实的相关性,在GOFAI用于表征这些事实的框架和槽的组织中已经假定如此。这也是当人类学习区分局势更多的不同方面时,为什么处理得更容易和更熟练,但是,对于框架和规则的数据库而言,提到它们越多,检索所相关的内容将变得越来越困难。
莱勒特似乎确实是正确的:即把Cyc项目看作产生广泛、灵活的人类智能的人工智能梦想的最后防卫。的确,Cyc项目正是因为其勇气和雄心,才比以往任何项目更多地面临基于符号表征的智能引起的问题。正如我们所看到的,针对符号人工智能以事实和规则的智能运用作为开端,我们预先假设了确定“什么可以看作类似于什么(what counts as similar to what)”的身体和风格背景上的敏感性,以及确定什么被显示为相关的背景应对的熟稔性(background coping familiarity)。对背景条件进行分析的希望,就有可能被隔离处理和认知的特征而言,表面上看来难以置信。曾经支持物理符号系统假说的唯一论点是理解等于分析的理性主义者假设,因此所有的经验必须是可分析的(即必须有一个对每个可理解领域的理论),或者是GOFAI对心智必须是一个符号操作器的回答,因为没有人知道可能会是别的什么。现在这两种观点均已丧失了可信性,仅保留了这样的实用主义观点:即GOFAI会通过产生智能机器来演示其可能性。迄今为止此类主张还未成功,而Cyc项目面临着原来所有最令人生畏的难题。这个项目还要继续5年多时间,但莱勒特没有让我们乐观的理由。看来很有可能到本世纪末表征主义人工智能的理性主义梦想将破灭。
对于三类不同的人工智能研究者来说,现在他们的工作聚焦在非传统的研究方法,GOFAI已被放弃。这类研究方法中的一种与菲利普· 阿吉(Philip Arge)和大卫·查普曼(David Chapman)有关,即试图不使用上下文无关的符号表征或内置的基于模型的规划方法,生成与微世界智能交互的程序。由神经网络建模者代表的第二类,也完全放弃了符号表征。这种方法利用了常规特征,但通过从专家提供的示例中推断以及对输入的直接映射来产生输出。人工智能的第三类新研究方法,称为强化学习,其目标是开发无需专家的程序,并使用在技能领域中的实际表现来独立地找到成功的输入-输出变换规则。仔细考虑这些新方法的优点和限制是值得的。
交互主义者对使用世界的符号模型的海德格尔式批评是敏感的,并试图把海德格尔的进行中的熟练应对技巧(ongoing skillful coping)的解释改写为一个备选的研究纲领。在麻省理工学院已开发了这种方法,有时被称为海德格尔式的人工智能。特瑞· 温诺格拉德(Terry Winograd),第一个把海德格尔引入到他的计算机科学课程中,他描述了这个令人惊奇的新发展:
“对那些追随人工智能历史的人来说,具有讽刺意味的是[麻省理工学院的]实验室会成为‘海德格尔式的人工智能’的摇篮。正是在麻省理工学院德雷福斯首次明确表达了他的批评,而20年来人工智能实验室的智识氛围(intellectual atmosphere)对承认他言论中的含义明显是敌对的。尽管如此,该实验室现在完成的某些工作似乎受到了海德格尔和德雷福斯的影响。”
温诺格拉德提到的人工智能实验室的工作是由阿吉(Arge)和查普曼(Chapman)提出的有影响力的活动理论(theory of activity),它在两个用于计算机游戏的程序:Pengi和Sonja中实现。阿吉和查普曼质疑世界需要内部符号模型来表征技能领域(skill domain)的上下文无关特性。追随海德格尔,他们指出在我们的日常应对(everyday coping)中,我们是在经验自己(experience ourselves),不是以在具有固定特性的物体之上的精神表征去经验主体(subject),而是沉浸于我们当下的局势之中,并直接响应其需求。
交互式人工智能认真地采取了本书中我归功于海德格尔的观点——即通常在我们的心灵中无需世界的表征,因为发现事务当下状态的最佳途径就是当我们经验世界时去面对它。查普曼告诉我们:
“如果你想发现关于影响我们应如何行动的世界的某些东西,你通常只可以看和观察。具体的行动主要与此时此地(here-and-now)相关。你多半不必担心之前和几乎在将来的事情,或者说物理上不是当下的事情。你不需要坚持一个世界模型;世界就是它自己最好的表征。”
阿吉和查普曼也采纳了斯图亚特和我在《机器心智》中发展的另一种海德格尔的理论,即行为可以具有目的性,而无需在心智中拥有目标或目的的代理体(agent)。
“在大量场景下,下一步做什么显然在手头已有的材料配置中(configuration of materials)给出。而一旦你那样做了,接下来要做的事情可能也是显而易见的。复杂的行动结果序列,并不需要一个复杂的控制结构来决定你所要做的事情。”
阿吉和查普曼工作中原创性的和重要的部分是这些思路超越了空想的现象学王国,具体到足以通过程序实现。它所导致的是一个表征世界的系统,不是一组具有属性的对象,而是作为当前的功能(海德格尔称为“为….”)。例如,举一个海德格尔式的例子,我经验的我正在使用的锤子不是一个具有属性的对象,而是为了把钉子敲进去(in-order-to-drive-in-the-nail)。只要有一些干扰,有经验的执行者就会注意到我所声称的情形。在海德格尔的例子中,木匠注意到锤子太重。上述两种存在的方式,海德格尔称之为上手的(ready-to-hand)与不上手的(unready-to-hand),与他称为存在的在手(presnet-at-hand)模式区分开来,那是稳定性事物的存在方式。对象可以被辨识为相同的,即使它们在不同的上下文中使用或者它们的一些属性发生变化。这样具有变化特征或属性的可重新识别的对象是GOFAI模型中表征的存在的唯一模式。交互主义者寻求表征上手和不上手的模式。查普曼就“指称性表征(deictic representations)”说道:
“我们所使用的这类表征是客观的:它们不应用表征代理体(representing agent)而表征世界。指称性表征依据它们与代理的关系来表征事物。指称性表征的单位是实体以及这些实体之间的关系视角,实体是与代理具有特定关系的事。例如,’我正在喝水的杯子(the-cup-I-am-drinking-from)’是实体的名称,而’我正在喝水的杯子几乎是空的’(the-cup-I-am-drinking-from-is-almost-empty)是它的关系的名称。’我正在喝水的杯子’是以代理的方式和关系视角的使用时机来定义的。”相同的指称指涉不同的杯子取决于这是谁的表征以及何时用此表征。它被功能性地定义,即根据代理的目的:喝(drinking)。”
在交互式编程中另一个受海德格尔启发的重要创新是目的性动作(purposive action)的实现。GOFAI的规划者搜索可能的动作序列空间以确定如何从当前局势的符号表征到达指定目标。动作的交互性方法规定了从局势直接到动作的映射(mapping)。
交互式人工智能已经实现了海德格尔的日常应对(everyday coping)的现象学,但没有试图在将确定装置(certain equipment)视为相关的,以及请求我的行动的确定过程的基础上,去实现他背景熟悉度(background familiarity)的解释。这个差距暴露了查普曼对相关性的解释不能令人满意。查普曼告诉我们:“代理体表征与局势最为相关的方面”。但此点证明了意味着在所有的GOFAI程序中,程序员要事先消化和理解领域知识,然后为系统确定在任意给定时刻中哪些是可能相关的特征。
迄今为止看上去好象海德格尔式的人工智能适用于海德格尔的现象学,其现象学中遗漏了长程规划(long-range planning)和具备上下文无关特征、可重新识别的对象的内部表征,但是它也缺乏任何智能系统所需的东西,即在技能域(skill domain)中区分出相关差别和从经验中学习新的差异的能力。为了提供这种关键性的能力,越来越多的研究者指望仿真神经网络。因此我们转向这种网络是否能展示我称之为熟悉度或者全局感知(global sensitivity)的问题,如果不能的话,它们是否能以某些方式应对相关性和学习(这里我对“我们”的用法是不恰当的但是是确实的,因为我的兄弟斯图阿特对本导言的余下部分做出了必不可少的贡献)。
我们已经提到过神经网络建模,它是对“可能是别的什么”(what-else-could-it-be )的问题的时髦答案,清除了GOFAI并给予人工智能研究者一种他们从60年代以来所没有的乐观主义。毕竟神经网络可以识别模式然后辨认出类似的情况,而且它们以并行方式去做从而避免了串行处理的瓶颈。但是神经网络提出了重大的哲学问题。似乎它们破坏了基本的理性主义者的假定,即一个人必须抽象出领域的理论以使其在该领域是有智能的。用最简单的话来说,从笛卡尔到早期的维特根斯坦的理解,发现一个理论就意味着发现了基于一个人把确定局势映射到适当响应而言的恒定特征。在物理符号系统中,表征中的符号应该对应这些特征,而程序则把这些特征映射到响应。如我们所见,莱勒特,GOFAI的最后一个传人,假定必然是在这样一个上下文无关的原语中他的本体论会走出低谷。当神经网络变得流行起来时,传统的人工智能研究者假设受训网络中的隐藏节点会检测和学习相关特征,减轻程序员通过试错发现它们的需要。但这已被证明是有问题的。
神经网络的输入必须,也当然是以问题域中稳定、可识别特征的方式表示。例如,一个被训练成对弈的神经网络会把其输入当作为以棋子类型和位置来定义的棋盘局面。问题是一个学习对弈的神经网络是否检测了高阶(higher-order)特征,例如不平衡的兵卒结构,它把这些特征以此方式组织:将任何共享相同高阶特征的局面映射到相同的走法。如果一个给定的网络通过一组给定示例进行训练,它能在训练之前就能独立地表现出检测到其连接强度(connection strength)的此类高阶特征,那么就能说它能对领域理论进行抽象。例如:如果此类特征能被证明为是象棋大师考虑到的种种特征,那么神经网络就会发现象棋理论家和符号人工智能研究者长期寻找的象棋领域理论。如果这些高阶特征不是领域专家能识别的那类特征,人工智能系统程序员能基于象棋知识发明高阶特征的信念当然会动摇,但是必然有智能行为可能存于其中的领域理论的假定不会受到怀疑。
然而,理性主义的含义可能要严肃得多。为了捍卫此理论,理性主义者很可能坚持:如果给定一组特别的连接强度作为采用示例训练神经网络的起始点,我们总能识别高阶特征,即使这些特征可能不被专家有意识地使用。考虑由前馈控制激活的二进制单元层次的简单情况,但没有侧向、反馈或者连接。为了从一个已学会某些关联(certain associations)的网络中建构这样的高阶特征,在其所接入的各种连接基础上,当检测任何某个可识别的输入模式何时呈现时(某些模式将会在训练中用到,某些则从未用到),我们能比输入节点高一个层次来解释(interpret)每个节点。如果一个特定节点检测到的一组输入模式被命名(几乎肯定不会有一个现成的),节点可能被解释成如其检测到的高度抽象特征那样。因此,比输入节点高一个层次的每个节点可能都被定性为特征检测者。同样,比那些节点高一级的每个节点可能被解释为检测一个高阶特征,该特征被定义为在第一层次的特征检测者中,一组规定模式的呈现(presence)。在层次结构中向上如此类推。可以为分级的神经元响应(连续的,非二进制)建构同样的故事。然后一个人会说某种程度上一个高阶特征出现了。
智能被定义为适合于领域的某类关联(association)的知识,而知识总是能以许多技能领域的高度抽象特征中的关系来解释,然而这个事实不支持理性主义者那种获取领域基本结构的解释性特征的直觉。关键问题是:如果训练几个具有不同初始连接强度的神经网络生成一组给定的输入/输出映射,同样的高阶特征是否会从中被检测出,或者至少在某种抽象级别上,所有这些网络能被视为抽象的等价不变性。
没有发现这样的不变性。最彻底的搜索涉及一个叫做NETtalk的神经网络,它把打印文本转换成语音。NETtalk被给予几页文本,加上文本中每7个字符串的中间字母的正确发音。神经网络开始时是随机的连接强度,对文本的阅读听起来象噪音。在使用反向传播算法 —— 一种反复改变连接强度的技术训练很多小时后,每一次带来的实际输出更加接近于正确输出,神经网络学会了以一种本地说话者容易理解的方式大声地阅读文本。但是当网络正在生成正确的响应时,采用不同初始连接强度的隐含节点活动的仔细分析,在尝试中不能发现一致的高阶特征。这样我们可以说迄今为止神经网络研究有助于证实应对(coping)无需对技能域理论(theory of skill domain )进行抽象的信念。对理性主义而言这是一个坏消息,但却给予神经网络超越GOFAI的巨大优势。
然而,常识知识问题(commonsense-knowledge problem)再次出现在这个工作中,而且如同它在GOFAI中所作的那样威胁到神经网络的研究进展。所有的多层感知神经网络建模者都同意智能的神经网络必须能够泛化(generalization);例如,对一个给定的分类任务而言,只要给出与一个特定输出相关联的足够多的输入的示例,就可以把接下来的相同类型的输入关联到同样的输出。但是什么算是相同类型呢?神经网络设计者通常在心中有一个合理通用化所需的“类型”的特殊定义,并且如果神经网络能泛化其它的这类实例,就当作是成功的。但是当一个神经网络产生了未预料到的关联时,能够说它泛化失败了吗?一个人同样可能说神经网络始终对“类型”的不同定义起作用以及那种差别刚刚被揭示。
作为一个有趣和生动的创新性但是非智能的泛化示例,考虑连接主义首批应用中的一个程序。在这项工作的早期,军方尝试训练神经网络识别森林中的坦克。他们先提供许多没有坦克的森林的图片,然后晚些时候取出带有在树木背后清晰突出来的坦克的森林图片。结果令人印象深刻,当证实神经网络能够泛化不属于训练集合中的图片的知识时,则给军方更加深刻的印象。然而,只是为了确保神经网络确实能识别局部被隐藏的坦克,研究者取出了相同森林的更多图片并出示给被训练的神经网络。他们沮丧地发现神经网络不能区分背后藏有坦克的树木的新图片和只有树木的新图片。在苦恼一阵子后,当某人注意到没有坦克的森林的原始图片是在阴天拍摄,而有坦克的森林图片是在晴天拍摄时,谜团终于解开了。神经网络显然学会了认识和泛化有阴影和无阴影森林的差异!这个例子说明了神经网络如果要分享我们对恰当泛化(appropriate generalization)的感觉的话,就必须共享我们对世界的常识性理解(commonsense understanding)的一般要点。
我们可能仍然希望与大脑不同的神经网络会产生令人激动的新泛化并对我们的智能有所裨益。毕竟检测阴影就如检测坦克一样合理。然而通常一个不能学会我们的泛化和把我们的实践应用于新局势的装置应被称为是愚蠢的。例如,由于我们身体的原因,我们通常把对称的物体看作类似的。如果一个系统总是把其他都相同的物体的各种镜像区分为不同的,但把投射相同阴影或者在上面有红色的物体区分为相同的,我们就不会认为它增加我们的智能,而是当作不可教的,简而言之,就加入我们的社会或者给予我们所关心的洞见而言还是愚蠢的。对于有趣但是非智能的分类练习而言,考虑乔治·路易斯·波奇的“‘某种汉语百科全书’的故事,其中写道‘动物分为:(a)属于皇帝的;(b)有香味的;(c)驯化的;(d)吮吸的猪;(e)警报器;(f)寓言的;(g)迷途的狗;(h)包含在当前分类中的;(i)狂乱的;(j)数不清的;(k)用非常好的驼毛刷画出来的;(l)等等;(m)打破了水罐;(n)那个从远处看象苍蝇的’”。
神经网络建模者一开始对他们的网络直到训练前是空白的石板(白板)很高兴,这样设计者就不必识别和提供象预先训练的智能的东西。然而近来他们也被生成合适的、类人的泛化的问题所迫,认识到如果不是可能的泛化类被合适的先验方式限制的话,就不能有信心地期待象人类那样的泛化。因此,在事先识别这类适合于问题(假设空间)的、可容许的类人泛化之后,这些建模者然后试图设计他们的网络结构,以致仅以处在假设空间内的方式来把输入转换成输出。泛化仅基于设计者的术语而言才会是可能的。当几个示例将不足以独一无二地识别假设空间中的合适成员时,在足够多的示例后,仅有一个假设会解释所有示例。然后神经网络将学会合适的泛化原则。也就是说,接下来的所有输入会产生从设计者的观点来看是正确的那些输出。
这里的问题是设计者依靠神经网络的结构来确定某些可能的泛化从不会被发现。所有这一切适合于玩具问题,在其中不会质疑是什么组成了合理的泛化,但在真实世界的场景中,大部分的人类智能在于以适合于上下文的方式泛化。如果设计者把神经网络限制在那类预先定义的合适输出中,则网络将展现设计者为上下文环境而内置的智能,但不会拥有常识而使它能适应其他上下文环境,就如真正的人类智能那样。
如果神经网络要共享我们合适泛化的感觉,可能它必须与人类大脑共享尺寸、结构和初始的连接配置。当然,缺乏泛化的原则性方法,但却偶然性地特定(ad hoc)成功的神经网络研究者,似乎仍处于当时我在60年代所写的GOFAI研究者的阶段。看上去很可能是被忽视后又复活的连接主义纲领仅仅只是正在获取一个应得的失败机会。
为了以人类那样的方式进行泛化,神经网络结构不得不以这样的方式设计:即网络会以人类相关的特征那样去响应局势。这些特征必须基于已表明是重要的过去的经验,也基于决定了局势的观察视角(perspective)的新近经验。只有如此神经网络才能这样进入局势:采用基于视角的类人的期望,这种期望既允许识别不在当前局势中的有意义的期望输入,也允许识别非期望的输入(如树林中的坦克)。当前没有神经网络表现出这些能力,也无人知晓甚至推测出我们的大脑结构如何产生这些。
通过对神经网络的监督训练来实现人工智能的途径还有另一个基本问题。在GOFAI中长期以来清楚的是无论系统展现出怎样的智能,它会被系统设计者明确识别并编程实现。系统没有独立的学习能力,该能力可以识别被传授的规则是不恰当的那种局势并构造新的规则。神经网络似乎确实拥有学习能力,但在监督训练的情形下,决定哪些情况是良好示例的人对智能有所裨益确实是真的。神经网络所学习的仅仅只是根据连接强度来如何捕获智能。因此神经网络象GOFAI系统一样,缺乏识别这样的局势的能力:即在局势中所学的是不合适的。相反,人类用户可以识别缺陷(failure),或者修正神经网络已被训练好的局势输出,或者提供新的案例来引导行为上的适当修正。当正在使用神经网络的环境经历结构性的变化时,会出现最困难的局势。例如,考虑1973年石油输出国组织(OPEC)挑起能源危机时这种局面就出现了。在这样的局势中,很可能发生人类培训师(human trainer)甚至不知道当前的响应是正确的并且应该用于重新训练神经网络。从这个角度来看,神经网络几乎象GOFAI系统那样依赖于人类智能,而他们炫耀的学习能力几近幻觉。我们真正所需要的是独立学习如何应对环境并在环境变化时修正其自身输出的系统。
为满足这个需要,近来的研究已经转向有时被称为“强化学习(reinforcement learning)”的进路。这种进路有两点优于监督学习(supervised learning)。首先,监督学习需要被告知对每种局势的正确反应的策略(device)。强化学习仅假定世界提供度量行动的即时成本(immediate cost)或受益(benefit)的强化信号(reinforcement signal),然后当求解任何问题时,寻求对接受的总体强化(total reinforcement)进行最小化或者最大化。用这种方式逐渐从经验中学习在不同局势下采取的最佳行动以便完成长期目标。为了学习熟练的应对技巧(skillful coping),策略(device)不需要全能教师而只需世界的反馈。其次,在监督学习中,技能环境的任何变化需要知道在新环境中做什么的专家的新的监督,新环境自动导致使策略适当地适应的强化改变(changes in reinforcement)。
一个例子将彻底澄清最基本形式的强化学习是什么。设想一个策略(device)是从重复的经验里学习城市中从A点到B点的最短路径。策略知道身在何处(当前状态)和可能的行进方向(容许的当前行动空间)。在它选择一个行动(方向)后,观察到达下一个交叉点(下一个决策点)的距离。这个成本是它的即时强化,它也观察下一个交叉点的位置(新局势)。标准的人工智能进路将基于经验使策略创建城市的内部地图,然后使用地图和一些计算算法来确定最短路径。象海德格尔式人工智能的新进路,无需模型和长程规划(long-range planning)。策略改为反复地取从A到B的不同路径,学习在每个交叉路口应往哪个方向走,以建立从给定交叉路口到达B的最短路径。它并不是尝试多个可选路径并记住其中的最佳路径,而只是逐渐学习在每个交叉路口最佳决策之外的信息片段,也就是从交叉路口到B的最短距离。这就是对交叉路口的“评值(value)”。在对到达下一个交叉路口距离的每一次观察和决定之后,强化算法根据所处交叉路口分值的当前估算以及要前往的下一个路口来评估决策。如果看上去这是一个好决策,则导致在未来再次碰到路径问题且发现自己身处同一路口时,更可能选择该决策。
迄今为止我们已经描述了在给定局势给定行动中的问题总是导致相同的下一个局势和同样的即时强化(immediate reinforcement),但该方法(approach)同样适用于概率环境,策略在此环境中搜寻使长期强化期望值最小化或最大化的行动。然后从局势中学到的评值是最小或最大的期望值。我们引用一个示例,强化学习的概念(与其它不太象大脑那样工作但又加快了学习效率的机制一起)被试用在十五子棋的随机游戏中。一个运行数万个游戏与自己对弈的程序,没有游戏专家的原理或专家提供的位置价值或正确走子方式的指导,很好地学会了位置的期望值,足以按照一流的人类参赛选手的水平对弈。它与任何采用更多传统人工智能或者监督学习方法(supervised learning methods)的电脑程序一样熟练。
所有这些都与现象吻合。我们人类的大多数技能都涉及到进化环境中的行为,无师自通地借助环境反馈,从试错中学会(或者有时从初始的传授中所习得的经验微调中学会)。此外,通常当专家不能获得解释他们能力的信息时,会轻易和快速地评估局面的价值或吸引力并推荐合适的行动。
倘若强化学习的概念正确地抓住了技能学习中人类智能的本质,问题自然就产生了,个人能建立这样的策略吗?——至少在特定领域内,这个策略与专家所用到的表面上可信的强化学习最小本质的策略做得一样好。在目前的实践中至少需要两项改进,就当前知识而言它们看来都不能完成。首先,如果强化学习用于这样的问题:其可能遭遇的局势数量远远超过在训练中实际遭遇的数量,因此需要一些针对新局势指派相当精确的行动和评分的方法。其次,如果强化学习用来提供象人类智能的东西,那么强化学习策略必须在遭遇某个视角下的局势并主动寻求相关输入时表现出全局敏感性。
首先考虑单一局势下的行为问题。这个问题由两个过程处理。第一个是基于从其它局势中学到的行动或评分,对原来较少遭遇的局面生成行动或评分值的自动泛化过程。第二个是把某人的行动建立在仅是局势特性总体的一个子集上,并把评分值附加到仅以这些相关特性为基础的局势;这样我们就通过对所有局势共享相同的特性值而不用管那些不相关的特性来概括经验。行动的选择或者评分从共享这些相关特性局势的经验来学习。这两种方法还不令人满意。关于自动泛化过程,在需要泛化的位置点上,局势与监督学习面临的局势完全一样。无人具备如何获得这个以类人智能所需的方式来泛化的网络或任何其它机制的概念。
上面提到的第二个问题——学会局势中哪些特性应被作为相关子集并用于决定行动和评分——同样困难。仅仅只在确定了事务的这种状态是哪类局势时,一个人才能发现事务当前状态的哪些特征是相关的。但是这需要检索先前的相关局势。这个问题可以被称为“相关性循环”(circularity of relevance)。为评估它的含义,想象一个棒球队老板给球队经理一台电脑,该台电脑加载了有关每名队员在不同条件下的表现的事实。某一天,在最后一局末咨询电脑后,经理决定用替补投手B换下场上的投手A。替补投手打出一记全垒打,球队赢得了比赛。但是球队老板感到苦恼并指责经理误用了电脑,因为它清晰地表明B的击球率比A要低。然而经理会说,电脑也指出B在日场比赛中有较高的击球率,而这正是日场比赛。老板回应是的,但电脑也表明他对左撇子投手的击中率要低,而今天的投手中正好有左撇子……等等,诸如此类。要点在于经理的专业经验,而一般来说这种专业经验在于能对相关事实做出响应。电脑通过提供比经理能记住的更多事实来提供帮助,但是只有专业经验使经理能把事务的当前状态看作特定局势从而了解哪些特性是相关的。那种专家级的诀窍(expert know- how)不能藉由添加更多事实来装入电脑,因为问题是哪一个才是当前正确的视角,从此视角可确定哪类事实是相关的。
目前的过程企图通过试错学习中对某些统计数据的跟踪来了解相关性。查普曼(Chapman)和克尔泊林(Kaelbling)提出的过程是以没有特征与行动或价值评估相关而开始的,也就是说,无论局势是什么,都采取同样的行动,而且所有的局势应附加同样的评分值。然后,对局面每个可能相关的特征,过程跟踪并记录当特征取每个可能值时(经常恰好是“当前值”或“非当前值”)事情如何推进的统计数据。如果在当前统计数据的基础上,特征取值似乎足以影响行动或者评分,就会被宣称为相关的。由于发现的相关特征集合的增长,局势会收到逐步更好的描述。
这类含糊的东西可能就是大脑所做的。但是,存在带有如上所述特定过程及其变化的严肃问题。首先,一个特征就其自身而言可能与行为无关,但当它与另一个或者更多的特征组合在一起时可能是相关的。为了消除这个问题,我们需要搜集关于特征组合相关性的统计数据,而这将导致可能重要的统计数据的指数爆炸。
其次,这个进路假定特征的相关性是问题域的属性;所测量的是所有遭遇的局势中的特征的相关性。但是一个特征可能在某些局势下是相关的,其他局势下不是。因此我们会针对每个局势分别搜集相关性数据,这又导致搜集的统计数据数量的指数增长。因此搜集统计数据,对于当前计算机过程处理智能行为中的相关性的确定(relevance-determination)而言,看来不是一个切合实际的方法。如我们所了解的,如果给出大脑的大小和结构,很可能并不令人意外的是:如果不搜集不切实际的数量的统计数据,当前没人知道怎样处理这个问题。
相关的第三个问题是某些局势中有可能想到的相关特征的数量没有限制。我们不能简单地从所有可能相关的特征开始,针对每个特征搜集数据,然后省去那些根据经验能有把握忽略的特征。但是如果我们从一个可能相关的特征的有限集合开始,则在当前集合证明不足以解释关于强化的已学习事实和局势演变时,没有已知的方法来添加新特征。
因此大脑怎么做的?没人知道。但是某些事实可能相关。首先,看来是经验从统计意义上确定了单个神经突触连接,因此,大脑用数十万亿的可调节突触,确实能在一个远超当前和可预见的计算机的规模上积累统计信息。其次,当前研究的强化学习过程一般生成的是这种含义的简单刺激-响应行为(stimulus-response behavior),即把局势描述的输入,直接映射转发(forward into)为一个行为或者局势评分值的输出。大脑显然具有内部状态,即当输入到达时,我们经验的与隐藏神经元的当前活动相互关联的情绪、预感和亲密。这些由大脑最近的输入和在较久过去经验基础上发展的突触链接强度确定,而且这些输入也确定了输出。原则上某人能通过把策略(device)的当前内部状态加到局势描述中,从而在强化学习过程内包括了这样的内部状态,一些研究者业已转到此方向。实际上,这样一个扩展过程:其内部状态基于近期事件被视为处理问题的视角,会允许把这个视角结合进神经模型中。但由于无人知道如何恰当地结合这些内部状态,因此在成功模仿人类行为之前需要突破。
最重要的是,已经有证据表明内部的大脑状态与输入交互,然后反馈它的输出到运动控制神经元(motor-control neurons),并返回到输入路径,通过运动控制来影响接收器(receptors)因此它们能主动搜寻信息,同时藉由进入输入路径的反馈来影响已感知到的相关性。这是能使一个有经验的人在他或她的技能领域内直接明了何者是相关的全局感(global sensitivity)现象的大脑基础。这种基于知觉输入交互和内部大脑状态的反馈会是处理信息拾取(information pickup)和相关性问题的强大机制,但是目前尚不理解这种机制的细节,哪怕是假设以某种方式引导人工智能研究。这样似乎是合理的:相信此机制存在大脑中并且原则上可理解,且硬件上可复制,以此在受限领域(restricted domains)内生成人工智能,强化学习只是往这个正确方向的一小步,而同时认为我们当前对大脑的忽视和计算机内存容量的实际限制,使得在可预见的将来,对这种大脑启发式的人工智能(brain-inspired AI)的重大进展变得极不可能。
即使解决了上述实际问题,仍有一个问题存在。在强化学习的所有应用中,程序员必须使用他或者她关于问题的知识,对指定每一步骤所接收的即时强化的规则进行形式化。对于路径问题和游戏,问题的客观属性(objective nature)确定了规则。但是,如果问题涉及人类应对(human coping),那么没有关于何者构成即时强化的客观答案。即使为了最大化总体的满意感,我们对人类行为做出过于简单的观点假设,产生如此行为的强化学习路径也会需要规则来确定源于每个可能局势的每个可能行动中的即时满足(immediate satisfaction)。但是人类没有或不需要这样的规则。我们的需要、渴望和情感藉由关于我们行为适当性的感觉直接呈现给我们。如果这些需要、渴望和情感轮流依赖于被社会化到文化中的生物躯体的能力和弱点,那么即使强化学习策略仍有很长的路要走。
那么……,人工智能中的所有工作,都面临深深的困境。如果某人试图建立一个GOFAI系统,他发现不得不在一个信念系统中,来表征人类仅仅只需要成为有技巧(skilled)的“人”就能理解的一切。在这本书第二版我写的导言中,简单地通过具备具身性(embodied)和有技巧性来使人类所理解的事物足够显著,以成功地对计算机进行编程来显示常识(common sense)的极度不可能性,导致我转向与GOFAI研究纲领相关的怀疑主义。高兴地是,机器学习的近期研究,不需要表征仅仅作为一个“人”就理解的所有一切。然而,如我们刚才所看到的,又会遭遇困境的另一个棘手问题。某人需要足以分享人类关注和结构的学习策略来学会泛化人类的行事方式。
译者附注
《计算机仍然不能做什么——人工理性批判》是著名哲学家Hubert L.Dreyfus于1972年出版的《计算机不能做什么——人工智能的极限》的第三版,虽说是第三版,其实这本书1972,1979,1992年的三个版本的正文几乎完全一样,不同的主要是每一个版本中正文之前很长的一段序言,1972年出第二版时,书名没有更改,仅仅增加了一个修订版序言,1992年出第三版时,出版商从Harper & Row换成了麻省理工学院出版社,书名也换成了《计算机仍然不能做什么——人工理性批判》。
这本书在Wikimedia和相关计算机或人工智能史的材料上都能找到介绍,是研究人工智能和认知科学史的重要文献。但这三个版本的奇怪之处,却要做一下交代。
作者的第一版主要是批判人工智能学科诞生以来头10年(即1957-1967)的不切实际的研究纲领,其内容主要分为四个部分。
第一部分的标题是:人工智能研究十年,主要回顾了1957-1967年人工智能研究的成果——但更多地是将其中出现的重大方法论问题。
第二部分的标题是:坚定的乐观主义后面的假想,主要讨论了早期人工智能研究纲领中的一些假设,包括生物学、心理学、认识论、本体论,Dreyfus完全以一个哲学家的眼光来看待作为工程技术的人工智能后面的科学或形而上学假设。
第三部分的标题是:传统假想的更换,主要提出了人工智能应该从哪些方面来调整其假设,才能避免重大的方法论问题和走入死胡同。
第四部分的标题是:人工智能的范围和极限。主要提出了人工智能在哪些认识和实践领域可以发挥作用,哪些领域是受限制的以及人工智能的未来。Dreyfus认为在新的科学原理发展起来以前,人工智能就像炼金术一样。
第一版中把人工智能比喻成炼金术,在当时引起了激烈的论战,影响深远。1975年认知科学作为一门横断学科(按钱学森术语:即指思维科学)独立出来,而人工智能逐渐成为一门工程实践性很强的技术学科。现在在各个大学里,认知科学研究中心或者设在心理学系,或者设在哲学系,个别实力强的大学设立单独的跨学科的认知科学研究中心,但人工智能专业毫无例外,一般都设立在计算机系。可以这么说,人工智能和认知科学任务的清晰化和分裂,与哲学家,尤其是Dreyfus(还有John Searles)的哲学批判密不可分。
Dreyfus自始自终没有改变过他对人工智能的批判观点,因此1979年当此书出修订版时,他仅仅增加了一个长达70余页(中译本)的修订版序言,用来对1967-1977年人工智能的新进展进行批判,正文几乎没有改动。
同样,在1992年出第三版时,Dreyfus增加了一个50余页(英文版)的麻省理工学院版序言,对1977到90年代初人工智能的进展进行批判,正文仍无修改。
因此,Dreyfus的这本书可以称得上与人工智能的发展与时俱进,看三个序言,就可以知道哲学家心目中人工智能研究纲领的第一个十年、第二个十年及接下来15年的发展与变化。
三联书店1986年出版了此书的第二版,译者为宁春岩,后来成为著名语言学家、超级左派的公知乔姆斯基的再传弟子,由我国著名的数学家、计算机科学家、语言学家和教育家:北京大学马希文教授作序(马先生已于2000年仙逝,其学生建立的纪念网址为http://www.math.pku.edu.cn/teachers/mxw/)。此中文译本除某些专业词汇或转引的哲学著作读来略觉生硬外,总的来说还算流畅。
但接下来出现了一个大问题:国内图书馆找不到这本书的第三版,因此对于最重要的第三版的序言,不要说中文译本,就连英文版也几乎找不到,包括上海图书馆和国家图书馆。似乎华南师范大学图书馆有一本,但我却借不到。
幸好Google数字图书馆已与麻省理工学院出版社达成了版权协议,这样在Google上我找到了这本书英文版的绝大部分内容(个别章节Google上也没有,但碰巧这些没有的章节在第二版中文译本中全有),并通过当时在宾夕法利亚大学的师弟李辉帮助下,获得了部分Google图书馆该书所缺页面的影印扫描件(感谢李辉每次花大量时间给我发如此大的扫描文件)。
由于近几年工作的繁忙,这个第三版的序言翻译时断时续,最终在2012年初才完成,4月份自己初步校对了一下,对于这个序言的严肃评论,笔者拟近期专题撰文讨论。
当然在1992年之后,Dreyfus还有一些论文与人工智能界交锋,但限于年龄和精力,已经很难像此书一样系统而完整。1992年之后,最重要的批判应来自于量子物理学家彭罗斯的《皇帝心脑》。但是人工智能学界从上世纪70年代初,一直到本世纪初,始终有人认真地对此书进行一些讨论,确实不多见。
而明天,2012年5月11日,北京大学智能科学系组织的一场学术研讨会,主题仍然是“计算机到底能做什么?--人工智能的理论限度”,德雷弗斯此书中译本导言作者马希文教授的高足,厦门大学艺术认知与计算实验室主任周昌乐教授也将参加此次会议,也许这不仅仅是巧合。人类理性智能的极限问题,不仅困扰着哲学家,也困扰着最终目的是完全复制人类智能的计算机科学家。