跨界的机器学习

作者:老师木

研究语言、图像之类人工智能确实可以鄙夷任何学科,这个方向太open了,都不知道是否有可能,再聪明的人跳进来也是烂泥缠身,朱松纯老板菲尔兹奖得主mumford,还有另外一位得主丘成桐,做了一段图像,进步也不大。还有smale等等。

从其他学科跨界过来的也很多,最多的是搞物理的。物理专业比数学专业强的一点是建立数学模型。物理专业的二流货色也没什么本领,遇到什么问题都往经典模型上套,遇到马尔科夫场就自选玻璃态ising model,什么扩散方程,电磁场模型,也没啥创造力。

Hinton的导师朗格希金斯是著名的化学家,与诺贝尔奖擦肩而过,后来对音乐认知感兴趣就换方向,在爱丁堡创世界首个ai系,创造“认知科学”这个概念。他做过许多著名的研究,记得有一个三维重建几何相关的,一个和谱聚类有关。

Jordan本科心理学不奇怪,Joran是当年pdp小组的成员,pdp的工作引发了上世纪八十年代神经网络的复兴,pdp小组的成员本就是心理学、物理学、计算机的组合,hinton、sejnowskyniy你也一定听说过,像bp算法,玻尔兹曼机全是他们的成果,jordan贡献了一篇线性代数的文章。后来jordan从pdp的策源地ucsd到mit工作,徐雷去mit进修时就是和jordan合作,一块儿出了不少成果,其中一篇信息融合的文章被引用很多。Jordan也是那时开始搞概率图模型,有一篇关于平均场的tutorial流传很广。(凭记忆写的,不保证细节准确)

关于机器学习与数学的讨论已经成了月经贴了,熟悉一点应用数学确实对理解问题的本质有帮助。机器学习的理论、算法、应用应该这么分:理论是指算法无关的,譬如computational learning theory、statistical learning theory讨论可学习、泛化等问题;算法值应用无关的,如svm、adaboost、nb、decision tree、lr、maxent等;应用指需要domain knowledge的。领域知识转化成模型是很见功底的,有奇效。

建立数学模型不是那么简单,有两件事情:1)物理上正确,一件事物的机制确实如此或近似如此;2)数学上正确,某个公式是否严谨。在理解一个已有模型时,弄清楚每一步推导是纯数学变换,还是引入了什么假设进行简化很重要。经典的概率信息检索模型,一直搞IR的人也未必清楚每一步推导是怎么来的。

举一些需要跨界知识的例子。

“可计算”computable是一个很严格的数学概念,不是指复杂度搞,而是超出图灵机的表达能力,有几种等价的定义。吴军在《数学之美》中把一个npc问题称作不可计算,不应该。

消除歧义,是人工智能的重要问题。自然语言处理、语音图像视频理解概莫能外。消歧得诉诸于上下文,具有多义性的句子或词汇在特定上下文出现时,通常多种含义中只有一种理解是和谐的。落实到算法上,最优美的就是概率图模型了,例子包括早些年隐马尔科夫模型到现在流行的条件随机场。

Pagerank一类的东西在搜索引擎中广泛使用,确实美妙,要体会美在何处,得随机、矩阵、图论都通。马尔科夫过程的平稳分布,图的划分,矩阵的奇异值分解之间的联系。具体到算法、谱聚类、pagerank、半监督学习等。不过多数都只有欣赏意义,不建议再入,这些已经被华人学者搞烂了。

不是说数学基础不重要,如优化。有许多组合优化问题动辄指数复杂度,应用数学家发现对这些问题使用一些松弛(relaxation)的技巧,问题就可以化解成很好求解的凸优化,譬如l1-magic、sdp之类,转化后的问题可以得到全局最优解,而且有一些性质能确保转化后的全局最优解可以作为原来组合优化问题的近似解。

@数学文化

#熵的历程5# 激波熵条件。空气动力学中高速会带来激波;激波线上物理量不可连续因此欧拉方程组没意义。最后发现“熵”有魔力。激波可由两点刻画:Rankine-Hugoniot条件描述激波传播速度与两侧物理量跃度的代数关系;熵条件要求力学系统的熵保持增加,数学上等价于相应的一族特征线相交(Lax几何熵条件)

这描述的应是最大熵原理:给定约束,找一个熵最大的概率分布。熵值最大保证:除约束条件引入的对模型选择的倾向性,不引入任何其它对模型的偏好。在不给任何约束条件时,熵最大的分布是均匀分布(最不偏不倚),当给定一阶矩约束时,熵最大的分布是指数分布;给定一阶矩和二阶矩约束时,高斯分布熵最大。

微分几何很有用。在机器学习中,有两个话题和微分几何密切相关,但都偏理论意义而实际用途不大。一是Manifold learning,理论漂亮;二是信息几何,微分几何和统计联姻产物,以微分几何为工具研究统计模型参数所处空间的几何性质,日本学者甘利俊一在这方面做出很大贡献,欲对统计理解深刻不能缺这一块。

通过averaging提高信噪比不仅是信号处理中的基本技术,在机器学习中也应用广泛,比较有名的bagging方法来减小分类器variance。这里的关键是减小分类器之间的相关性,尽可能满足噪声独立同分布的假设。(Ensemble learning相关)

Hidden Markova model假设有一个隐含状态序列,每个隐含状态会产生一个观测,我们的任务是根据观测推理隐含状态是什么时,不仅要考虑哪个状态产生这个观测的概率最大,而且要考虑隐含状态之间的概率跳转关系,要综合来看,也就是根据观测去计算一条概率最大的状态链,所使用的算法是动态规划。

Tags :

留下你的评论