Domingos 《机器学习那点事儿》解...

中文原文由@刘知远 翻译

作者:老师木

晚上看了domingos的论文,是不是也吐槽呢,不吐槽不显得自己牛逼,对吧。想了多半天,其实很多都和他观点一样,有的在微博上也说过,要说点不一样的。我还在看这篇论文,大部分问题都想过,有些没想明白,有些我不赞同他的说法。Domingos论文敢于对有争议的话题发表自己看法,值得学习。

这篇文章能发到CACM,domingos一定是下了很大功夫的,而且一定有很权威的专家审稿。有些话题是老生常谈,譬如相关不意味着因果、维数灾难等。有些话题是树假耙子打,譬如简单不意味着准确率。有的话题有争议。当然可取之处也有很多,但我觉得意犹未尽,有些论题可以更深入,我在一年前想过。这篇文章的目的是practical lessons,这并不说明理论不重要,反而恰恰说明了理论重要,这是在理解了本质之后豁然开朗的结果。

Domingos在分析问题时,十分喜爱使用布尔变量,这是一个技巧,在computational learning theory中经常使用,简单直观直接揭示本质,计算机专业也喜欢离散不喜欢不连续。建议遇到问题时,多使用这种思路。有些结论矫枉过正,某结论大部分情况成立,domingos要抬杠举反例,这时候要注意,反例了解了解就可以,操作时还是要按保险的来。有可能会有人发论文反驳,特别是大数据情形。

把不好吃的皮剥掉,论文精彩之处来了,有一些例子:1)基于10w词汇的垃圾邮件过滤;2)从100w样例学习含有100个布尔变量的表达式;3)学习析取范式;4)pac的阐述;5)高维空间反直觉举例;6)xor学习;7)n位校验函数学习。

不足之处。用指数级模式规模揭示机器学习局限性不错,也提到了bless of ununiformity使学习成为可能,但浅尝辄止。Ununiformity是自然界普遍规律,正因为非均匀分布,世界才具有规律性,当一切变成均匀分布时,宇宙进入热寂,熵趋于极大。当然论文意在破而不是立。也可以分析更具体而不是这样玄乎。n个布尔变量可构成的模式数是2^n个,数量巨大,不过自然界模式形成是有规律的,布尔变量取0、1的概率非均匀,加上布尔变量间有概率依赖,使得有的模式概率远远大于另一些模式,有的模式构型甚至永不会出现,这种非均匀分布使得规律挖掘成为可能,压缩成为可能。

信息论中有个源编码定理,有个典范集的概念。1)以二值图像为例。n*n可以表示2^(n*n)种不同的图像,可涵盖世界上所有图像模式,不过当把所有模式打印出来时,人们会发现其中极小比例的模式是有意义的,真实存在的,而其中能被称作人脸的模式就更局限了。2)以语言为例。有一万个字,长度为10的句子空间是10^10000,其中有意义的句子差不多百万。大数据时代,完全可以枚举每一个句子。这意味着,大数据带来的机会是不须挖掘生成规律,仅表示观察结果已足够达到学习的目的,这是和人类不同的另一种智能。我觉得,非均匀这一点从立论来看是值得大书特书的。

另一个浅尝辄止的地方是对校验函数的学习,是采用扁平的svm还是多层结果,这实际涉及到deep learning的意义。研究布尔电路的人有一个结论,多层电路比扁平电路节省器件。当然这也是有条件的,对于自然界有意义的函数,具有自然的分层组织结构,使用分层描述当然更本质。但是否适合分层取决于数据,这一点在讨论deep learning时会细加论述。看到有些人,不分青红皂白,上来就deep,deep不是万能的。和XXOO类似….(此处略去若干字)

来源:www.guzili.com

Tags :

留下你的评论