机器学习有没有用?
作者:老师木
首席刻薄aiml有点道理,这个领域骗子太多了。我之前的微博也不少鄙视ml的内容。未来硬骨头还是属于计算机科学家啃,而不是统计学家,所以jordan那套,成绩相对于获得的荣耀,是要被鄙视的。连续两个图灵奖给ml学者,他们的贡献不在统计,还是在计算机科学。图灵即是cs始祖又是ai始祖,谁敢鄙视他。
当下的互联网服务成功依赖于策略和系统,二者相辅相成,系统再先进,策略很笨也是白搭。Aiml主要是在策略上发挥作用,但策略说穿了,就像小聪明一样,没说穿时还是很难领悟的。
Jordan那套不是指图模型,图模型既漂亮又实用,judea pearl做了开创贡献,已经拿了图灵奖。Jordan在这方面没啥贡献,只是为普及布道有些贡献。Jordan那套是指纯玩统计学概念,dirichelet以及中国餐馆等等。
Topic model是里程碑,但不是jordan做的。以前和余凯老师讨论过,从dumais的lsa,到hoffman的plsa,然后才是lda。非结构化数据的结构化也需要aiml来做,不然计算机没法利用。
最后,给机器学习的泼点冷水,如果不是写论文,只为解决实际问题,学那么多统计、优化、矩阵之类的得不偿失,还不如多花点时间提高编程能力实惠。我花了那么多时间搞熟练哪些数学,摸清楚各种复杂机器学习算法的内涵以及互相之间的关系,多了在给别人讲解时有孔乙己懂回字有几种写法这样虚无的优越感,现在还没发现实际中有什么大用途。实际问题中,喜欢使用的都是直接有力的解法。当然,我比别人多懂一点这种简单粗暴的做法背后也有深刻的道理。
机器学习强大也弱小,计算机专业学生要看到机器学习的局限性是不需要概率统计背景的,只需要看俩经典的“简单”问题。机器学习本质是从观测数据序列中自动挖掘出能解释数据的最通用(最简单)规律。给一批布尔表达式,有求最小析取范式的好方法吗?给一批字符串,有求最短正则表达的好办法吗?.*不算。
未来成功的互联网服务一定是基于机器学习的,但不会用太复杂的工具,因为海量数据使太复杂的方法既不可行也无必要,主要瓶颈还是在infrastructure和数据质量上。
来源:www.guzili.com
留下你的评论