人工智障 (3/3)

作者:Mingke,本文转自S先生人工智障2 ,此为第二部分。

Part 4 AI产品的潜力在于设计

「 AI的归AI,产品的归产品 」

人工智障 2 : 你看到的AI与智能无关

《The Prestige》2006,剧照

有一部我很喜欢的电影,The Prestige,里面讲了一个关于「瞬间移动」的魔术。对于观众而言,就是从一个地方消失,然后瞬间又从另一个地方出现。

第一个魔术师,成功的在舞台上实现了这个效果。他打开舞台上的右边的门,刚一进去的一瞬间,就从舞台左边的门出来了。对观众而言,这完全符合他们的期望。

第二个魔术师在观众席里,看到效果后惊呆了,他感觉这根本毫无破绽。但是他是魔术师——作为一个产品经理——他就想研究这个产品是怎么实现的。但是魔术行业里,最不受人待见的,就是魔术揭秘。

影片最后,他得到了答案(剧透预警):所有的工程机关、升降机、等等,都如他所料的藏在了舞台下面。但真正的核心是,第一个魔术师一直隐藏着自己的另一个双胞胎兄弟。当他打开一个门,从洞口跳下舞台的那一刻,双胞胎的另一位就马上从另一边升上舞台。

看到这里,大家可能就恍然大悟:「原来是这样,双胞胎啊!」

这感觉是不是有点似曾相识?在本文 Part 2,我们聊到把对话系统的黑箱打开,里面就是填一张表的时候,是不是有类似的感觉?对话式人工智能的产品(对话系统)就像魔术,是一个黑箱,用户是以感知来判断价值的。

「我还以为有什么黑科技呢,我是双胞胎我也可以啊。」

其实这并不容易。我们先不说魔术的舞台里面的工程设计,这个魔术最难的地方是如何能在魔术师的生活中,让另一个双胞胎在大众视野里完全消失掉。如果观众们都知道魔术师是双胞胎,就很可能猜到舞台上的魔术是两个人一起表演的。所以这个双胞胎,一定不能出现在大众的「世界模型」里。

为了让双胞胎的另一个消失在大众视野里,这两兄弟付出了很多代价,身心磨,绝非一般人能接受的,比如共享同一个老婆。

这也是我的建议:技术不够的时候,设计来补。做 AI 产品的同学,不要期待给你智能。要是真的有智能了,还需要你干什么?人工智能产品经理需要设计一套庞大的系统,其中包括了填表、也当然包括深度学习带来的意图识别和实体提取等等标准做法、也包括了各种可能的对话管理、上下文的处理、逻辑指代等等。

这些部分,都是产品设计和工程力量发挥的空间。

「 设计思路的基础 」

我需要强调一下,在这里,咱们讲的是 AI 产品思路,不是 AI 的实现思路。

对于对话类产品的设计,以现在深度学习的基础,语义理解应该只占整个产品的 5%-10%;而其他的,都是想尽一切办法来模拟「传送」这个效果——毕竟我们都知道,这是个魔术。如果只是识别就占了你家产品的大量心血,其他的不去拉开差异,基本出来就是智障无疑。

在产品研发方面上,如果研发团队能提供多种技术混用的工具,肯定会增加开发团队和设计的发挥空间。这个做法也就是 DL(Deep Learning) + GOFAI (Good Old Fashioned AI) 的结合。GOFAI 是 John Haugeland 首先提出的,也就是深度学习火起来之前的 symbolic AI,也就是专家系统,也就是大多数在 AI 领域的人都看不起的「if then…」

DL+GOFAI 这个前提,是当前一切后续产品设计思路的基础

「 Design Principle:存在即为被感知 」

存在即为被感知」是 18 世纪的哲学家 George Berkeley 的名言。加州大学伯克利分校的命名来源也是为了纪念这位唯心主义大师。这个意思呢,就是如果你不能被感知到,你就是不存在的!

我认为「存在即为被感知」是对话类 AI 产品的 Design principle。对话产品背后的智能,是被用户感知到而存在的。直到有一天 AI 可以代替产品经理,在那之前,所有的设计都应该围绕着,如何可以让用户感觉和自己对话的 AI 是有价值的,然后才是聪明的。

人工智障 2 : 你看到的AI与智能无关

要非常明确自己的目的,设计的是 AI 的产品,而不是 AGI 本身。就像魔术的设计者,给你有限的基础技术条件,你能组装出一个产品,体验是人们难以想到。

同时,也要深刻的认识到产品的局限性。魔术就是魔术,并不是现实。

这意味着,在舞台上的魔术,如果改变一些重要的条件,它就不成立了。比如,如果让观众跑到舞台的顶上,从上往下看这个魔术,就会发现舞台上有洞。或者「瞬间移动」的不是这对双胞胎中的一个,而是一个观众跑上去说,「让我来瞬间移动试试」,就穿帮了。

Narrow AI 的产品,也是一样的。如果你设计好了一个 Domain,无论其中体验如何,只要用户跑到 Domain 的边界以外了,就崩溃了。先设定好产品边界,设计好「越界时给用户的反馈」,然后在领域里面,尽可能的模拟这个魔术的效果。

假设 Domain 的边界已经设定清晰了,哪些方面可以通过设计和工程的力量,来大幅增加效果呢?

其实,在「Part 3 对话的本质」里谈到的与思维相关的部分,在限定 Domain 的前提下,都可以作为设计的出发点:你可以用 GOFAI 来模拟世界模型、也可以模拟场景模型、你可以 Fake 逻辑推理、可以 Fake 上下文指代——只要他们都限定在 Domain 里。

「 选择合适的Domain 」

成本(工程和设计的量)和给用户的价值并不是永远成正比,也根据不同的 Domain 的不同。

比如,我认为现在所有的闲聊机器人都没有什么价值。开放 Domain,没有目标、没有限定和边界,对用户而言,会认为什么都可以聊。但是其自身「场景模型」一片空白,对用户所知的常识也一无所知。导致用户稍微试一下,就碰壁了。我把这种用户体验称为「每次尝试都容易遇到挫折」。

可能,有些 Domain 对回复的内容并不那么看重。也就并不需要那么强壮的场景模型和推理机制来生成回复内容。

我们假设做一个「树洞机器人」,可以把产品定义是为,扮演一个好的听众,让用户把心中的压力烦恼倾诉出来。

人工智障 2 : 你看到的AI与智能无关

▲ Human Counseling. Source: Bradley University Online

这个产品的边界,需要非常明确的,在用户刚刚接触到的时候,强化到用户的场景模型中。主要是系统通过一些语言的反馈,鼓励用户继续说。而不要鼓励用户来期望对话系统能输出很多正确且有价值的话。当用户做出一些陈述之后,可以跟上一些对「场景模型」依赖较小,泛泛的话。

「我从来没有这么考虑过这个问题,你为什么会这么想呢?」

「关于这个人,你还有哪些了解?」

「你觉得他为什么会这样?」

……

这样一来,产品在需求上,就大幅减轻了对「自然语言生成」的依赖。因为这个产品的价值,不在回复的具体内容是否精准,是否有价值上。这就同时降低了对话背后的「场景模型」、「世界模型」、以及「常识推理」这些高维度模块的需求。训练的素材嘛,也就是某个特定分支领域(比如职场、家庭等)的心理咨询师的对话案例。产品定义上,这得是一个 Companion 型的产品,不能真正起到理疗的作用。

当然,以上并不是真正的产品设计,仅仅是用一个例子来说明,不同的 Domain 对背后的语言交互的能力要求不同,进而对更后面的「思维能力」要求不同。选择产品的 Domain 时,尽量远离那些严重依赖世界模型和常识推理,才能进行对话的场景。

有人可能说,你这不就是 Sophia 的做法么?不是。这里需要强调的是 Sophia 的核心问题是欺骗。产品开发者是想忽悠大众,他们真的做出了智能。

在这里,我提倡的是明确告诉用户,这就是对话系统,而不是真的造出了智能。这也是为什么,在我自己的产品设计中,如果遇到真人和 AI 同时为用户服务的时候(产品上称为 Hybrid Model),我们总是会偏向明确让用户知道,什么时候是真人在服务,什么时候是机器人在服务。这么做的好处是,控制用户的预期,以避免用户跑到设计的 Domain 以外去了;不好的地方是,你可能「听上去」没有那么酷。

所以,当我说「存在即为被感知」的时候,强调的是对价值的感知;而不是对「像人一样」的感知。

「 对话智能的核心价值:在内容,不在交互 」

多年前,还在英国读书的时候,我曾经在一个非常有名历史悠久的秘密结社里工作。我对当时的那位照顾会员需求的大管家印象深刻。你可以想象她好像是「美国运通黑卡服务」的超级礼宾,她有两个超能力:

1. Resourceful,会员的奇葩需求都能想尽办法的实现:一个身在法兰克福的会员半夜里遇到急事,临时想尽快回伦敦,半夜没有航班了,打电话找到大管家求助。最后大管家找到另一个会员的朋友借了私人飞机,送他一程,凌晨回到了伦敦。

2. Mind-reading,会员想要什么,无需多言:

「Oliver,我想喝点东西…」

「当然没问题,我待会给你送过来。」她也不需要问喝什么,或者送到哪里。

人人都想要一个这样的管家。蝙蝠侠需要 Alfred;钢铁侠需要 Javis;西奥多需要 Her(尽管这哥们后来走偏了);iPhone 需要 Siri;这又回到了我们在 Part1 里提到的,AI 的 to C 终极产品是智能助理。

但是,人们需要这个助理的根本原因,是因为人们需要它的对话能力么?这个世界上已经有 70 亿个自然语言对话系统了(就是人),为什么我们还需要制造更多的对话系统?

我们需要的是对话系统后面的思考能力,解决问题的能力。而对话,只是这个思考能力的交互方式(Conversational User Interface)。如果真能足够聪明的把问题提前解决了,用户甚至连话都不想说。

我们来看个例子。

人工智障 2 : 你看到的AI与智能无关

我知道很多产品经理已经把这个 iPhone 初代发布的东西讲烂了。但是,在这儿确实是一个非常好的例子:我们来探讨一下 iPhone 用虚拟键盘代替实体键盘的原因。

普通用户,从最直观的视角,能得出结论:这样屏幕更大!需要键盘的时候就出现,不需要的时候就消失。而且还把看上去挺复杂的产品设计给简化了,更好看了。甚至很多产品经理也是这么想的。实际上,这根本不是硬件设计的问题。原因见下图。

人工智障 2 : 你看到的AI与智能无关

其实乔布斯在当时也讲的很清楚:物理键盘的核心问题是,(作为交互 UI)你不能改变它。物理交互方式(键盘)不会根据不同的软件发生改变。

如果要在手机上加载各种各样的内容,如果要创造各种各样的软件生态,这些不同的软件都会有自己不同的 UI,但是交互方式都得依赖同一种(物理键盘无法改变),这就行不通了。

所以,实际代替这些物理键盘的,不是虚拟键盘,而是整个触摸屏。因为 iPhone(当时的)将来会搭载丰富的生态软件内容,就必须要有能与这些还没出现的想法兼容的交互方式。

在我看来,上述一切都是为了丰富的内容服务。再一次的,交互本身不是核心,它背后搭载的内容才是。

但是在当初看这个发布会的时候,我是真的没有 get 到这个点。那个时候真的难以想象,整个移动互联时代会诞生的那么多 app,都有各自不同的 UI,来搭载各式各样的服务。

你想想,如果以上面这些实体键盘,让你来操作大众点评、打开地图、Instagram 或者其他你熟悉的 app,是一种怎样的体验?更有可能的是,只要是这样的交互方式,根本设计不出刚才提到的那些 app。

与之同时,这也引申出一个问题:如果设备上,并没有多样的软件和内容生态,那还应该把实体键设计成触摸和虚拟的方式么?比如,一个挖掘机的交互方式,应该使用触屏么?甚至对话界面?

「 对话智能解决重复思考 」

同样的,对话智能的产品的核心价值,应该在解决问题的能力上,而不是停留在交互这个表面。这个「内容」或者「解决问题的能力」是怎么体现的呢?

人工智障 2 : 你看到的AI与智能无关

工业革命给人类带来的巨大价值在于解决「重复体力劳动」这件事。

经济学家 Tyler Cowen 认为,「什么行业的就业人越多,颠覆这个工种就会创造更大的商业价值。」他在 Average Is Over 这本书里描述到:

「20 世纪初,美国就业人口最多的是农民;二战后的工业化、第三产业的发展,再加上妇女解放运动,就业人工最多的工种变成辅助商业的文字工作者比如秘书助理呼叫中心(文员,信息输入)。1980/90 年代的个人计算机,以及 Office 的普及,大量秘书,助理类工作消失。」

这里提及的工作,都是需要大量重复的工作。而且不停的演变,从重复的体力,逐步到重复的脑力。

从这个角度出发,对一个场景背后的「思考能力」没有把控的 AI 产品,会很快被代替掉。首当其冲的,就是典型意义上的智能客服。

在市场上,有很多这样的智能客服的团队,他们能够做对话系统(详见 Part 2),但是对这各领域的专业思考,却不甚了解。

我把「智能客服」称为「前台小姐姐」——无意冒犯,但是前台小姐姐的主要工作和专业技能并没有关系。他们最重要的技能就是对话,准确点说是用对话来「路由」——了解用户什么需求,把不合适的需求过滤掉,再把需求转给专家去解决。

但是对于一个企业而言,客服是只嘴和耳,而专家才是脑,才是内容,才是价值。客服有多不核心?想想大量被外包出去的呼叫中心,就知道了。

与这类客服机器人产品对应的,就是专家机器人。一个专家,必定有识别用户需求的能力,反之不亦然。你可以想象一个企业支付给一个客服多少薪资,又支付给一个专家多少薪资?一个专家需要多少时间培训和准备才能上岗,客服小姐姐呢?于此同时,专业能力是这个机构的核心,而客服不是

正因为如此,很多人认为,人工的呼叫中心,以后会被 AI 呼叫中心代替掉;而我认为,用 AI 做呼叫中心的工作,是一个非常短暂的过渡型方案。很快代替人工呼叫中心的,甚至代替 AI 呼叫中心,是具备交互能力的专家 AI 中心。在这儿,「专家」的意义大于「呼叫」。

在经历过工具化带来的产能爬坡和规模效应之后,他们成本差不多,但是却专业很多。比如他直接链接后端的供给系统的同时,还具备专业领域的推理能力,也能与用户直接交互。

NLP 在对话系统里解决的是交互的问题。

在人工智能产品领域里,给与一定时间,掌握专业技能的团队一定能对话系统;而掌握对话系统的团队则很难掌握专业技能。试想一下在几年前,移动互联刚刚出现的时候,会做 app 的开发者,去帮银行做 app;而几年之后银行都会自己开发 app,而开发者干不了银行的事。

在这个例子里,做 AI 产品定义的朋友,你的产品最好是要代替(或者辅助)某个领域专家;而不要瞄准那些过渡性岗位,比如客服。

从这个角度出发,对话智能类的产品最核心的价值,是进一步的代替用户的重复思考。Work on the mind not the mouth. 哪怕已经是在解决脑袋的问题,也尽量去代替用户系统2的工作,而不只是系统1的工作。

在你的产品中,加入专业级的推理;帮助用户进行抽象概念与具象细节之间的转化;帮助用户去判断那些出现在他的模型中,但是他口头还没有提及的问题;考虑他当前的环境模型、发起对话时所处的物理时空、过去的经历;推测他的心态,他的世界模型。

先解决思考的问题,再尽可能的转化成语言。

Part 5 AIPM

「 缺了什么?」

2018 年 10 月底,我在慕尼黑为企业客户做 on site support。期间与客户的各个 BU、市场老板们以及自身的研发团队交流对话 AI 的应用。作为全球最顶尖的汽车品牌之一,他们也在积极寻求 AI 在自身产品和服务上的应用。

  • 不缺技术人才。尽管作为传统行业的大象,可能会被外界视为不擅长 AI,其实他们自身并不缺少 NLP 的研发。当我跟他们的 NLP 团队交流时,发现基本都有世界名校的 PHD。而且,在闭门的供应商大会上,基本全球所有的科技大厂和咨询公司都在场了。就算实在搞不了,也大有人排着队的想帮他们搞。
  • 创新的意愿强烈。在我接触过的大企业当中,特别是传统世界 100 强当中中,这个巨头企业是非常重视创新的。经过移动互联时代,丢掉的阵地,他们是真心想一点点抢回来,并试图领导所在的行业,而不是 follow 别人的做法。不仅仅是像「传统的大企业创新」那样做一些不痛不痒的 POC,来完成创新部门的 KPI。他们则真的很积极地推进 AI 的商业化,而且勇于尝试改变过去和 Tech provider 之间的关系。这点让我印象深刻,限于保密条款,在此略过细节。(关于国际巨型企业借新技术的初创团队之手来做颠覆式创新,也是一个很有意思的话题,以后新开一个 Topic。)
  • 数据更多。那么传统巨头的优势就在于,真正拥有业务场景和实际的数据。卖出去的每一台产品都是他们的终端,而且开始全面联网和智能化。再加上,各种线下的渠道、海量的客服,其实他们有能力和空间来搜集更完整的用户生命周期数据。

当然,作为硬币的另一面,百年品牌也自然会有严重的历史牵绊。机构内部的合规、采购流程、数据的管控、BU 之间的数据和行政壁垒也是跑不掉的。这些环节的 Trade off 确实大大的影响了对上述优势的利用。

但是最缺少的还是产品定义能力。

如果对话智能的产品定义失败,后面的执行就算是完美的,出来的效果也是智障。有些银行的 AI 机器人就是例子:立项用半年,竞标用半年,开发用一年,然后上线跑一个月就因为太蠢下线了。

但这其实并不是传统行业的特点,而是目前所有玩家的问题——互联网或科技公司的对话 AI 产品也逃不掉。可能互联网企业还自我感觉良好,在这产品设计部分,人才最不缺了——毕竟「人人都是产品经理」嘛。但在目前,咱们看到的互联网公司出来的产品也都是差不多的效果,具体情况咱们在 Part 2 里已经介绍足够多了。

我们来看看难点在哪里。

AI 产品该怎么做定义呢?也就是,需要怎样的产品才能实现商业需求。技术部门往往主要关注技术实现,而不背商业结果 KPI;而业务部门的同事对 AI 的理解又很有限,也就容易提出不合适的需求。

关键是,在做产品定义时,你想要描述「我想要一个这样的 AI,它可以说…」的时候你会发现,因为是对话界面,你根本无法穷尽这个产品的可能性。其中一个具体细节就是,产品文档该怎么写,这就足够挑战了。

「 对话AI产品的管理方法 」

先给结论:如果还想沿用管理 GUI 产品的方法论来管理对话智能产品,这是不可能的。

从行业角度来看,没有大量成功案例,就不会有流水线;没有流水线,就没有基于流水线的项目管理。

人工智障 2 : 你看到的AI与智能无关

也就是说,从 1886 年开始第一辆现代汽车出现,到 1913 年才出现第一条流水线——中间有 27 年的跨度。再到后来丰田提出 The Toyota Way,以精益管理 (Lean Management) 来快速迭代(类似敏捷开发)以尽量避免浪费,即 Kaizen(改善),这已经是 2001 年的事情了。

这两天和其他也在给大企业做对话的同行交流的时候,听到很多不太成功的产品案例,归结起来几乎都是因为「产品 Scope 定义不明」,导致项目开展到后面根本收不了尾。而且因为功能之间的耦合紧密,连线都上不了(遇到上下文对话依赖的任务时,中间环节一但有缺失,根本走不通流程)。这些都是行业早期不成熟的标志。

「 对话AI产品的Design Principle 尚未出现 」

对话智能领域相对视觉类的产品,有几个特性上的差异:

1)是产品化远不如视觉类 AI 成熟;

2)深度学习在整个系统里扮演的角色虽然重要,但是还是很少,远不够撑起来有价值的对话系统;

3)产品都是黑箱,目前在行业中尚无比较共同认可的设计标准。

app 发展到后面,随着用户的使用习惯的形成,和业界内成功案例的「互相交流」,逐步形成了一些设计上的共识,比如下面这一排,最右边红圈里的「我」:

人工智障 2 : 你看到的AI与智能无关

但是,从 2007 年 iPhone 发布,到这些移动产品的设计规范逐步形成, 也花了近 6、7 年时间,且不提这是图形化界面。

到如今,这类移动设备上的产品设计标准已经成熟到,如果在设计师不遵循一些设计思路,反而会引起用户的不习惯。只是对话系统的设计规范,现在谈还为时尚早。

到这里,结合上述两个点(对话 AI 产品的管理方法、设计规范都不成熟),也就可以解释为什么智能音箱都不智能。因为智能音箱的背后都是一套「技能打造框架」,给开发者,希望开发者能用这套框架来制作各种「技能」。

而「对话技能类平台」在目前根本走不通。任何场景一旦涉及到明文识别以外的,需要对特定的任务和功能进行建模,然后再融合进多轮对话管理里的场景,以现在的产品成熟程度,都无法抽象成有效的设计规范。现在能抽象出来的,都是非常简单的上下文管理(还记得 Part 2 里的「填表」么?)。

我就举一个例子,绝大部分的技能平台,根本就没有「用户生命周期管理」的概念。这和服务流程是两码事,也是很多机器人智障的诸多原因之一。因为涉及到太细节和专业的部分,咱们暂且不展开。

也有例外的情况:技能全部是语音控制型,比如「关灯开灯」「开空调 25 度」。这类主要依赖明文识别的技能,也确实能用框架实现比较好的效果。但这样的问题在于,开放给开发者没有意义:这类技能既不需要多样的产品化;开发者从这类开发中也根本赚不到钱——几乎没有商业价值。

另一个例外是大厂做 MLaaS 类平台,这还是很有价值的。能解决开发者对深度学习的需求,比如意图识别、分词、实体提取等最底层的需求。但整个识别部分,就如我在 Part 3&4 里提到的,只应占到任务对话系统的 10%,也仅此而已。剩下的 90% 的工作,也是真正决定产品价值的工作,都得开发者自己搞。

他们会经历些什么?我随便举几个最简单的例子(行业外的朋友可以忽略):

  • 如果你需要训练一个意图,要生成 1000 句话来做素材,那么「找 100 个人,每人写 10 句」的训练效果要远好于「找 10 个人,每人写 100 句」;
  • 是用场景来分意图、用语义来分意图和用谓语来拆分意图,怎么选?这不仅影响机器人是否能高效支持「任务」之间的跳转,还影响训练效率、开发成本;
  • 有时候意图的训练出错,是训练者把自己脑补的内容放进去了;
  • 话术的重要性,不仅影响用户看着舒不舒服,更决定了他的回复的可能性——以及回复的回复的可能性——毕竟他说的每一句后面的话,都需要被识别后,再回复;
  • 如果你要给一个电影院做产品,最好用图形化界面,而不要用语言来选座位:「现在空着的座位有,第一排的 1,2,3,4….」

这些方面的经验和技巧数都数不完,而且还是最浅显、最皮毛的部分。你可以想象,对话智能的设计规范还有多少路要走——记得,每个产品还是黑箱,就算出了好效果,也看不到里面是怎么设计的。

「 一个合适的AIPM 」

当真正的人工智能实现之后,所有产品经理所需要做的思考,都会被 AI 代替。所以,真正的人工智能也许是人类最后的一个发明。在那一天之前,对话智能产品经理的工作,是使用各种力量来创造智能给人的感觉。

AIPM 一定要在心中非常明确「AI 的归 AI,产品的归产品」。做工具的和用工具的,出发点是完全不同。应该是带着做产品的目的,来使用 AI;千万不要出现「AIPM 是来实现 AI 的」这样的幻觉。

人工智障 2 : 你看到的AI与智能无关

我们都熟悉,PM 需要站在「人文和技术的十字路口」来设计产品。那么对话智能的 AIPM 可能在这方面可能人格分裂的情况更极端,以至于甚至需要 2 个人来做配合成紧密的产品小组——我认为一个优秀的对话智能产品经理,需要在这三个表现优秀:

1. 懂商业:就是理解价值。

人工智障 2 : 你看到的AI与智能无关

对话产品的价值一定不在对话上,而是通过对话这种交互方式(CUI)来完成背后的任务或者解决具体问题。一个本来就很强的 app,就不要想着去用对话重新做一遍。反而是一些 app/WEB 还没有能很好解决的问题,可以多花点时间研究看看。

这方面在 Part 4 里的对话智能的核心价值部分,当中有详细阐述,在这里就不重复了。

2. 懂技术:理解手中的工具(深度学习 + GOFAI)

一个大厨,应该熟悉食材的特性;一个音乐家,应该熟悉乐器的特征;一个雕塑家,应该熟悉手中的凿子。大家工具都差不多,成果如何,完全取决于艺术家。

现在,AIPM 手中有深度学习,那么就应该了解它擅长什么和不擅长什么。以避免提出太过于荒谬的需求,导致开发的同学向你发起攻击。了解深度学习的特性,会直接帮助我们判断哪些产品方向更容易出效果。比如,做一个推荐餐厅的 AI,就比做一个下围棋的 AI 难太多了。

下围棋的产品成功,并不需要人类理解这个过程,接受这个结果就行。而推荐一个餐厅给用户,则必须要去模拟人的思维后,再投其所好。

人们在想要推荐餐厅的时候,通过对话,了解他的需求(绝对不能问太多,特别是显而易见的问题,比如他在 5 点的时候,你问他要定几点的餐厅)

对于围棋而言,每次(单次)输入的可能性只有不超过棋盘上 19×19=361 种可能性;一局棋的过程尽管千变万化,我们可以交给深度学习的黑箱;最后决定输赢所需要的信息,全部呈现在棋盘上的落子上,尽管量大,但与落子以外的信息毫无关系,全在黑箱里,只是这个黑箱很大。最后,输出的结果的可能性只有两种:输或者赢。

对于推荐餐厅。每次输入的信息,实际并不包含决策所需要的全部信息(无法用语言表达所有相关的影响因素,参考 Part 3 里世界模型部分);而且输出的结果是开放的,因为推荐的餐厅,既不可被量化,更不存在绝对的对错。

了解 CUI 的特性后,不该用对话的就不要强上对话交互;有些使用对话成本非常高,又很不 Robustic 的环节,同时用户价值和使用频次又很低的,就要考虑规避——咱们是做产品的,不是实现真正的 AI 的,要分清楚。

3. 懂人:心理和语言

这可能是当前对话类产品最重要的地方,也是拉开和其他产品设计的核心部分。也可能是中年人做产品的第二春。

对心理的理解,指的是当用户在说话的时候,对他脑中的模型的理解。英文中「Read the room」就是指讲话之前,先观察一下了解周围听众的情况,揣摩一下他们的心理,再恰当的说话。

比如,讲话的时候,是否听众开始反复的看表?这会让直接影响对话的进程。你有遇到过和某人对话起来感觉很舒服的么?这个人,不仅仅是语言组织能力强,更重要的则是他对你脑中的对话进程的把握,以及场景模型,甚至对你的世界模型有把握。他还知道怎么措辞,会更容易让你接受,甚至引导(Manipulate)你对一些话题的放弃,或者是加强。

对话系统的设计也是一样的。哪些要点在上文中说过?哪些类型的指代可以去模拟?如果是文字界面,用户会不会拉回去看之前的内容?如果是语音界面,用户脑中还记不记得住?如果记得住,还强调,会感觉重复;如果记不住,又不重复,会感觉困惑。

对语言的理解,则是指对口语特性的理解。我知道 Frederick Jelinek 说的「每当我开除一个语言学家,Speech 识别的准确率就会增高」。只是,现在根本没有真正意义上的自然语言生成(NLG),因为没有真正的思维生成

所以,任务类的对话的内容,系统不会自然产生,也无法用深度学习生成。对于 AIPM 而言,要考虑的还是有很多语言上的具体问题。一个回复里,内容会不会太长?要点该有几个?谓语是否明确,用户是否清晰被告知要做什么?条件又是什么?这样的回复,能引发多少种可能的问询?内容措辞是否容易引起误解(比如因为听众的背景不同,可能会有不同的解读)?

从这个角度而言,一个好的对话系统,必定出自一个很能沟通的人或者团队之手。能为他人考虑,心思细腻,使用语言的能力高效,深谙人们的心理变化。对业务熟悉,能洞察到用户的 Context 的变化,而其格调又帮助用户控制对话的节奏,以最终解决具体问题。

Part 6 可见的未来是现状的延续

 「 过渡技术」

在几周前,我与行业里另一家做对话的 CEO 讨论行业的将来。当我聊到「深度学习做对话还远达不到效果」的态度时,他问我:「如果是悲观的,那么怎么给团队希望继续往前进呢?」

其实我并不是悲观的,可能只是更客观一点

既然深度学习在本质上搞不定对话,那么现在做对话 AI 的实现方式,是不是个过渡技术?这是一个好问题。

我认为,用现在的技术用来制作 AI 的产品,还会持续很长时间,直到真正智能的到来

如果是个即将被替代或者颠覆的技术,那就不应该加码投入。如果可以预见未来,没人想在数码相机崛起的前期,加入柯达;或者在 LED 电视普及之前,重金投入在背投电视的研发上。而且难以预测的不仅仅是技术,还有市场的发展趋势。比如在中国,作为无现金支付方式,信用卡还没来得及覆盖足够多的支付场景,就被移动支付断了后路。

而现在的对话智能所使用的技术,还远没到这个阶段。

Clayton M. Christensen 在《创新者的窘境》里描述了每个技术的三个阶段:

  • 第一个阶段,缓步爬坡;
  • 第二个阶段开始迅猛发展,但是到接近发展的高地(进步减速)的时候,另一个颠覆式技术可能已经悄悄萌芽,并重复着第一个技术的发展历程;
  • 第三个阶段,则进入发展瓶颈,并最终被新技术颠覆

下图黑色部分,为书中原图:

人工智障 2 : 你看到的AI与智能无关

而当前对话 AI 的技术,还在第一阶段(蓝色旗帜位置)称不上是高速发展,还处于探索的早期。黑箱的情况,会使得这个周期(第一阶段)可能比移动时代更长。

以当前的技术发展方向,结合学术界与工业界的进展来看,第二个技术还没有出现的影子。

但是同样因为深度学习在对话系统中,只扮演的一小部分角色,所以大部分的空间,也是留给大家探索和成长的空间。换句话来讲,还有很多发展的潜力。

前提是,我们在讨论对话类的产品,而不是实现 AI 本身。只是,这个阶段的对话 AI,还不会达到人们在电影里看到的那样,能自如的用人类语言沟通。

 2) 服务提供者崛起的机会 

因为上述的技术发展特点,在短期的将来,数据和设计是对话智能类产品的壁垒,技术不是

只是这里说的数据,不是指的用来训练的数据。而是供给端能完成服务的数据;能够照顾用户整个生命周期的数据;是当对话发生的时候,用户的明文以外的数据这些数据;影响用户脑中的环境模型、影响对任务执行相关的常识推理数据,等等。

而随着 IOT 的发展,服务提供者,作为与用户在线下直接打交道的一方,是最有可能掌握这些数据。他们能在各个 Touch point 去部署这些 IOT 设备,来搜集环境数据。并且,由他们决定要不要提供这些数据给平台方。

但是,往往这些行业里的玩家都是历史悠久、行动缓慢。其组织机构庞大,而且是组织结构并不是为了创新而设计,而是围绕着如何能让庞大的躯干不用思考,高速执行。而这也正是互联网企业和创业企业的机会。

 3)超级终端与入口之争 

对话智能类的产品必须搭载在硬件终端上。很多相关的硬件尝试,都是在赌哪个设备能够成为继手机之后的下一个超级终端。就好像智能手机作为计算设备,代替了 PC 的地位一样。

毕竟,在移动时代,抢到了超级终端,就抢到了用户获取服务的入口。在入口的基础之上,才是各个应用。

如果对话智能发展到足够好的体验,并能覆盖更多的服务领域时,哪一个终端更有可能成为下一个超级终端呢?智能音箱、带屏幕的音箱、车载设备甚至车机、穿戴设备等等都可以搭载对话智能。在 5G 的时代,更多的计算交给云端,在本地设备上留下能耗较低的 OS 和基础设施,I/O 交给麦克风和音频播放就完成了。

人工智障 2 : 你看到的AI与智能无关

▲ credit:Pixabay

因此任意一个联网设备,都可能具备交互和传递服务的能力,进一步削弱超级终端的存在。也就是说,作为个人用户,在任意一个联网设备上,只要具备语音交互和联网能力,都可能获得服务。特别是一些场景依赖的商业服务,如酒店、医院、办公室等等。

随着这些入口的出现,在移动时代的以流量为中心的商业模式,可能将不再成立。而新的模式可能诞生,想象一下,每一个企业,每一个品牌都会有自己的 AI。一个或是多个,根据不同的业务而产生;对内部员工服务或者协助其工作,同时也接待外部的客服,管理整个生命周期从注册成这家企业的用户开始,到最后(不幸地)中断服务为止。

只是这个发展顺序是,先有服务,再有对话系统——就好像人,是有脑袋里的想法,再用对话来表达。

结语

在本文中,所有与技术和产品相关的讨论,都是在强调一个观点:一个产品是由很多技术组合而成。我不希望传达错误的想法,类似「深度学习不重要」之类的;相反,我是希望每一类技术都得到正确的认识,毕竟我们离真正的人工智能还有距离,能用上的都有价值。

作为 AI 从业者,心中也会留有非理性的希望,能早日见证到人造的智能的到来。毕竟,如果真正的智能出现了,可能产品经理(以及其他很多岗位)就彻底解放了(或者被摧毁了)。

这或许就是人类的最后一个发明。

本文开始于慕尼黑,最终成稿于北京,断断续续耗时接近 3 个月。期间与很多大企业,行业内的创业者,还有一些资本的同学沟通交流。在此表示感谢,就不一一点名啦。

本文来自微信公众号 S 先生(ID:TheMisterS),作者为 Mingke,爱范儿经授权发布,文章为作者观点,不代表爱范儿立场。

 

Report Story
Tags :