无监督学习

作者:老师木 (http://www.weibo.com/dr4x)

机器学习的终极问题是无监督学习。这里的“无监督”不是我们所熟知的聚类那么简单,而是一个哲学问题。无监督意味着规律的发现,计算理论对应着科尔莫格罗夫复杂性问题。而这个问题是不可计算的,这就意味着现在的冯诺依曼机对于彻底解决该问题无能为力。

人脑是世界上最复杂的系统,它能学习语言,识别图像,发现规律。人能否在无监督下学习这些能力是多年来争论的哲学问题。若能,说明人脑比计算机更强。Chomsky认为人的语言补课习得,因为刺激贫乏,steven pinker也持此观点。但有计算机科学家试图证明机器可习得语言。人脑的发育和发展过程中,确实大量依赖于weakly supervised learning,另外一方面来自于遗传的物理结构。前者是后天的可塑性,后者则是先天的结构,基因掌控,又是来自于亿万年的进化(也可理解为长期的可塑性)。

计算机模拟前者容易,要实现后者就难多了。Deep learning试图在结构上模拟人脑。不管是structure learning还是parameter estimation,计算机来解决都无非是一个搜索问题,只是搜索空间大小有区别而已。很多问题是否可计算,计算复杂度刻画已经很明白了。后续可以指望的是计算能力的提升,近似算法的发展,以及借鉴人脑发展是如何在巨大的假设空间中演化选择以发展到现在的状态的。

无监督学习,在操作上比较直接可做的两件事有:1)聚类,把每个d维向量作为整体来研究向量空间上的结构,共N个instance;2)特征分析(降维等),把每个N维向量作为整体来研究,共d个instance。两者是对偶关系,存在等价联系,譬如PCA和K-Means之间的等价关系,当然理想情况是两者的结合。所谓两者的结合,就是同时在特征和样例两个维度上分析,分析哪些样例在哪些维度上是共同的因素主导的。方法上PCA和K-Means向Topic Model的发展反映了这个趋势。最根本上,无监督学习的目标是:给定观察数据,推理出数据产生的机制。

来源:http://1.guzili.sinaapp.com/?p=109

Tags :

留下你的评论