前辈之路(6) 张俊林专访

受访者:@张俊林

感谢接受 我爱计算机 的采访。

(1)按照惯例,先简单介绍下自己的经历吧。

说起来我经历还挺杂,或者说不够安分吧,在科学院读完博士之后留在研究所搞过两年科研,和朋友一起创业做过“玩聚网”,用NLP和搜索技术做博客文章的自动聚合,按现在的说法也算是人工智能,不过没赶上最近两年这么好的大背景,结果无疾而终。后来在阿里巴巴、百度、新浪微博等互联网公司从事NLP和搜索推荐方面的研发,目前在畅捷通从事面向企业应用的人工智能方面的技术研发与技术管理工作。热衷于技术分享和传播,曾经写过搜索和大数据方面的两本书,目前比较关注深度学习如何在NLP领域更好地应用。

(2)当前所任职的公司似乎不是大家眼中传统的互联网公司,你加入以来觉得和BAT之类的最大不同是什么, 围绕这个不同,可以做哪些文章?

畅捷通是用友的子公司,在大家眼里还是一个传统的软件公司,但是其实目前市场上真正传统的软件公司已经不多了,大家都在转型。畅捷通也在顺应移动潮流,在构建云平台+移动端应用的转型过程中,推出了自己的云平台以及工作圈、易代账、好生意、好会计等移动应用。

和一般互联网公司相比,最大的不同在于服务对象,畅捷通的服务对象是大量中小微企业,是to B的,目前大多数互联网公司更多是to C的。ToB和ToC业务在很多方面都有巨大差异,包括产品形态、推广方式、研发重心、增长形态等等。尤其是人工智能技术如何在企业应用找到好的结合点,应该说目前大家都处于不断摸索的阶段。目前看除了常规的搜索推荐等应用场景外,企业移动应用里语音操控数据是个较好的结合点,目前市场上的语音识别系统在企业场景下很难直接应用,里面有很多问题比如领域术语、方言等,我们在这上面做了很多研发工作,目前对于商品的方言识别准确率达到了比较高的精度,北方方言准确率在92%以上,南方方言在86%以上。当然,我们本身不做语音识别,更多工作是在对识别结果进行自动纠错等后处理上。

(3)你是搜索和推荐领域的行家,能否从技术角度来解读下这两者的差异,哪个更难做好?

如果单从技术本身来说,其实采用的底层技术在ToB和ToC应用方面并没有太多差异,更大的差异可能体现在数据方面,ToB的公司在非结构化数据方面的积累速度比ToC来说要慢,所以感觉ToB做起来更难一些。

(4)当前个性化推荐产品很火,但我试用过几个之后,不免又落入了看什么就推什么的尴尬境地,要彻底解决“新鲜感”的问题,产品/技术上有什么可以做?

我觉得用户看过什么就推什么,根本上还是技术上做得不够好导致的。个性化推荐产品通过用户历史建立用户个人兴趣模型,然后根据个人兴趣模型推荐可能感兴趣的内容这个产品逻辑没什么问题,而且将来也是大势所趋,个性化服务未来必将越来越流行。

如果要避免这种问题,其实就是在了解用户兴趣基础上,又能有一定的泛化能力,推荐出没看过但是又跟用户兴趣模型相关的新鲜内容,新鲜性体现在模型泛化推广能力的强弱。如果是采用基于内容推荐的算法,那么看过什么就推荐什么感觉是没办法的,基于内容推荐决定了只能是这种效果。但是如果是协同过滤,无论是KNN还是MF方法,按理说应该能在对兴趣建模基础上有一定的泛化能力,能推出一定程度上感兴趣但是又具备新鲜度的内容。我觉得基于社交关系的推荐应该能够一定程度避免这个问题,因为社交关系和内容推荐性质差异很大,不从内容本身做兴趣推导,而社交关系的多样性能够保证推荐内容的新鲜度,应该能够缓解这个问题。 其实微信朋友圈可以看做是一种纯粹的基于社交关系的推荐,新鲜度应该是够的,不过只怕相关性不足,如果社交推荐和协同过滤等模型共同构建推荐模型,估计能够找到一个较好的平衡点。所以我觉得不是做不到,应该还是没做好,多模型融合可能是其中的关键点。

(5)你写过不少利用深度学习来做应用的科普技术类文章,那么能否抽象一下业务场景,从技术层面来说,你觉得深度学习最适合解决什么样的问题?

如果抽象地谈深度学习适合解决什么样的问题,回答起来相当有难度。总体而言,深度学习是个经验性比较强的技术领域,理论发展远远落后于经验的归纳总结,如果这方面东西了解多了,深度学习看起来就像个由各种trick组成的工具箱。一般都是凭着经验摸到了一种技巧,实验证明确实有效后,然后去给这个技巧去找理论解释,至于这个理论解释是不是说得通,那还真说不准。比如说,拿Residual Network作为例子,Residual Network的重要性毋庸置疑,是深度学习领域的里程碑工作,每位立志于好好研究或者应用深度学习技术的都应该认真学。最先提出Residual Network思想的论文其实本质上是个纯经验的思路,并没有给出技术为何有效的有说服力的说法,然后第二篇Residual Network文章试图在理论上解释为何技术有效,主要还是从如何有效减少后向传播中梯度消失的角度来谈的,这固然是原因之一,但是我总觉得这个原因不本质,后来又出现了一篇论文从Ensemble 的角度谈为何Residual Network有效,我觉得这个解释感觉更接近本质一些,能解释更多的类似模型。当然这是我个人主观感觉,其实为何有效目前还是没有定论。但是这个例子能够体现出深度学习的一个研究现状和研究特点,大多数重大的深度学习进展都类似这种情况。

正因为深度学习是个偏向经验的领域,所以可以这么说:只有被实践证明了能被深度学习确实有效地解决的问题才是深度学习适合解决的问题。其实就是说,好不好看疗效。而很难从理论基础上去推论说深度学习适合解决什么问题,因为它的理论基础是不够坚实的,所以做推论更难。当然这是我个人目前的理解,水平有限,不一定对。

(6)随着微信/微博等的流行,人人都可以做自媒体来传播自己对技术的看法,但质量参差不齐,自己这方面有没好的筛选干货文章的经验?

这确实是个问题,目前不论什么技术,最大的问题不是可参考的资料太少,而是信息太多,需要增强甄别意识,不要浪费太多时间在低质量内容上。我觉得这事情可以换个角度看,从筛出高质量内容的目的出发,应该先关注人,再关注内容,其实技术人员在技术品味上有很大差异,先找到那些你认可的人,再持续关注那些人发布的观点或者文章,充分发挥人肉过滤器的作用,这可能是性价比比较高的方式。如果是机器学习领域的话,我推荐下北邮陈光老师的微博账号“爱可可-爱生活”以及鲍捷兄维护的“机器学习日报”,内容非常全面,我现在上微薄比较少,一般隔一阵子会整个扫一遍这两个账号最新微博内容,看看是不是遗漏了一些自己没有关注到的重要内容,对我很有帮助。

(7)说说从业以来,对你影响最大的一个人或者一件事吧。

我在科学院软件所读完博士就留在所里搞科研,后来有一阵子比较迷茫,主要是当时我判断了一下,发现自然语言处理这个领域那时候处于技术发展平台期,就是大家都拿那么一两个工具在那改来改去的,也没见有什么实质性的进展,而且中期内看不到有突破的迹象,觉得挺没意思的,但是未来怎么样也没想清楚,所以就比较迷茫。后来有一次,软件所孙乐研究员给我讲了个故事,说是所里有位老先生,钟情于机器翻译,搞了10几年中日翻译,不过做到最后也只是个不能实际用的类似于玩具的系统。这事情当时对我触动比较大,也是促进我后来离开科学院去创业的一个重要原因。学术圈和工业圈在做事风格、价值取向差异很大,之所以说这事情对我影响大,可以说对我当时来说完全是个人生岔路口。

(8)假如现在回到高中毕业时,你还会选择计算机专业吗?会选择具体哪个方向?

其实我本科读的不是计算机,当时选的是管理学院,到了研究生才换专业转到计算机方向的。如果真能时光倒流,可以重新做选择的话,我想我还是会选择计算机作为未来的专业方向。回头看过去的20年,从大的方向来说,有三个方向是所有职业发展里面比较好的:金融、IT和房地产。如果站在现在的时间节点往后看,房地产估计会逐渐没落,而金融和IT应该会继续保持强劲发展的趋势。金融行业如果获得较好的职业发展很多时候依赖出身背景等自身不可控因素,IT行业自身的素质和努力等自我可控的因素发挥的作用更大一些。所以综合来看,IT行业是家庭出身一般的孩子能够获得较大发展舞台的比较好的行业,不过IT技术更新换代太快,你要能在别人夜夜笙歌的时候苦哈哈地去学新技术,得能坐得住,其实对人的要求也挺高的。当然,上面说的内容功利性强了些,首先应该结合个人兴趣来考虑,如果没有兴趣不论在哪个行业估计都会越来越痛苦。如果个人职业发展兴趣能够和社会发展趋势相互吻合是最好的。

至于具体方向的话,估计会选机器学习相关的方向。很明显人工智能技术会在人们将来的生活起到越来越重要的作用,而如果自己能够用自己的知识和才智推动人们生活在过去只能在科幻片里看到的场面还是挺酷的一件事。

(9)对在校计算机科班的学生谈谈自己学习的经验或者建议吧。

我觉得学校里学的内容和工作里需要的技能点脱节现象比较严重,当然如果自己学习能力强这都不是问题。如果有建议的话,建议学计算机的学生可以考虑参加些开源项目,增加实际动手能力,这可能是比较高的要求了,如果把要求放低些,至少应该找几个自己感兴趣的口碑好的开源项目,仔细把项目的设计思路以及代码逻辑或者代码风格等吃透,这对于提升自身专业能力有很直接的帮助。另外,目前各种类似于Kaggle这种数据方面的竞赛也比较多,如果有精力建议可以多参加,能获得好名次固然好,但是这不是最重要的,以赛促学,学习效率会比较高,学的东西也会比较接地气。

(10)如何看目前市场上人工智能被炒得这么热的现象?

我从业这么多年,应该说一直没有离开人工智能这个大领域,但是最近一年人工智能能热成这样子一则没想到,二则也是第一次感受到这种热度。人工智能热本身其实是个好事情,越来越多资金和社会关注涌入这个行业无疑对于技术创新是有非常直接的促进作用,而且对于行业内的兄弟们来说对于自身价值的增值也是有很好的帮助作用,应该说这次人工智能热,深度学习在其中的背书作用是功不可没的,因为深度学习确实在很多场景证明了自己,应该说人工智能热是有很大的合理因素在其中。而且,从长期看,我是人工智能技术的极端乐观主义者,它越来越重要这一点也是不存任何疑问。

但是,我还是想泼点冷水,短期看,最近人工智能在各种媒体的推波助澜下,炒作得有点过头了,我个人觉得这里面的泡沫非常严重。确实,有深度学习的效果背书,不能说这是一种纯粹的炒作。但是普通人眼中期望的人工智能能到达的高度绝对不是目前技术短期内能够达到的,期望越大,从高峰跌落摔得就越惨,这个道理我相信大家都理解。我觉得人工智能产品有个特点,就是绝大多数属于锦上添花型的,很少有雪中送炭型的,纵观目前市场上各种人工智能产品,真正能够提供必不可少价值的少之又少。这里面的泡沫无疑越来越大,但是大量产品缺乏坚实的产品价值基础,我感觉这有点像15年上半年的A股那时候的市场状态,每个人都以为这是一次独一无二的牛市,但是音乐总有终止之时。

Report Story

留下你的评论