理想的机器学习书

作者:老师木

首先先简单写点吴军《数学之美》和李航《统计机器学习原理》的书评,然后再谈我心中理想的机器学习书。

我买了一本吴军的《数学之美》,这是一本不错的科普书,特色是作者与很多传奇人物有过交往,能讲一些他们的八卦。但原理介绍方面,还是有一些瑕疵。1)最大熵、LR、CRF这三个算法本是一个道理,却分散在三章中介绍,而且也没有指出他们的联系;2)动态规划在全书中有好几处应用:地图搜索、维特比算法、HMM、CRF等,同样一个算法分散介绍也不突出他们的内在联系;3)“聚类”和“分类”混用;4)“不可计算”是一个与NP-COMPLETTE不同的概念。

吴军在讨论“规则与统计”,以及对阿米特-辛格之简单哲学的吹捧,显得很没境界。哪个流派称为显学,哪个没落,十年河东,十年河西而已,历史上这样的故事发生了很多次了。而且他在讨论“规则与统计”时捧统计抑规则,而在讨论艾米特辛格简单哲学时,捧规则抑统计,不知他信仰到底是什么?

李航的书对LR与MaxEnt之间的关系介绍得也不够理想。应引入指数族分布,给定一些约束求最大熵分布,数学结果是指数族分布;且参数结果与已知分布为指数族时的最大似然解等价。具有广泛实例的指数族竟是最大熵原理的自然结果,让人感叹自然界的奇迹,也内心欣赏这样一个连定理都称不上的原则的神奇。

机器学习书,数学的严谨当然不可少,但只堆公式还不够,若看公式直接找论文就可以了,没必要看书。

物理意义。一定要给每一个数学结论都赋予物理意义。来龙去脉,给出每一个重要发展的来龙去脉、历史渊源或者八卦背景,学术点叫motivation。只有了解这些才能融会贯通,历史地理解一个方法或理论的地位、局限性等。

每一个问题的最好说明方式。有很多艰深的理论,极难理解,但总有各种著作有自己的阐述方式,写作者要了解这些已有的阐述方式,并判断哪种方式最绝妙,若不存在已有的好的方式,则要自己创造,只要作者理解深刻,一定能找到简单的说明方式。

深度和广度。不只是罗列算法,对领域内最深刻的问题不能逃避,计算学习理论有两本教材,翻过的人会知道这些基本的东西都不难理解。广度,机器学习所涉及的随机、矩阵、优化自然少不了,人工智能、信号处理。信息论中胡同的方法和理论也要拿来举一反三,心理学、脑科学。哲学问题也要大胆讨论。

实在。要传达给读者最有用的理念,理论是帮助人认识问题的,不是唬人的,必须向读者说明某某东西说白了就是什么。对介绍的东西不要一味吹捧,必须有批判。作者不能纸上谈兵,必须有丰富的实战经验。

综合。各种理论,算法直接的联系,使读者学会一个就轻松了解另一个。已有书在这个方向上努力了,但还不够。

现在有书达到这个要求了吗?都只是部分达到。这些要求太高了,除非作者把写书当作事业。ESP、PRML都是经常被推荐的书。李航的书可取之处是重要的结论都有推导,还给出一个很简单的例子一步一步手算。

现在有一本Kevin Murphy出了一个 Machine Leaning:a probabilistic perspective,这本书不错,我写过一句话评论:complete but not comprehensive enough。 有些独特的东西,以后再谈。

来源:www.guzili.com

Tags :

留下你的评论