概率与统计

概率与统计

作者:@老师木
来源: www.guzili.com

Probability和statistics是不同的概念,前者是给定模型计算数据的可能性,后者是给定数据的可能性推模型。获图灵奖的两位mler做的基本是概率,不是统计。统计什么时候能拿图灵奖呢,我看不可能。据说数学系最烂的人才去搞统计。

概率很美,统计很丑,再漂亮的统计也是基于假设的,而人为的假设缺乏客观。科学要么是公理,要么是逻辑上必然,而不喜欢想当然。

在统计方法中,所有的模型都是错误的,不过无所谓,能用就行。假设获得一个标准正态分布的采样,却不告诉你这个真正的分布是什么,请你建立一个模型(概率分布)解释和预测这批数据,有可能推理出正态分布吗?若建立成其它概率分布有什么影响?

因此在学习分类器时,面对一组特征,我们当然喜欢和目标y互信息最大的特征。尽管道理上互信息为特征选择提供了方向,但并没有带来多少可操作性,因为要计算互信息,必须先知道x和y的概率分布。然而一旦有它们的概率分布,我们可以直接做贝叶斯决策就能达到贝叶斯错误率,而不必在求助于互信息。

可见推理数据的概率分布是学习的根本难题。从信息论的角度,数据的最优(短)编码也由概率分布决定,即熵(哈夫曼编码是一种最优前缀吗,还记得它怎么由概率分布构造出来的吗)。知道概率分布,就可以获得最小错误率,最短描述长度。那么概率分布好算吗?

科学喜欢简洁的rule,简洁即漂亮。可惜,终极简洁不可计算。任给一批观测数据,背后最简洁的rule是什么?科尔莫格罗夫说最简洁的rule就是生成这批数据的最短的程序。这个定义简直太绝了,有个名字是描述复杂性。计算理论说,不存在一个图灵机,输入一些数据,就输出一个能打印这些数据的最短的程序。

统计学家一看这个问题不可计算,那还搞个什么?于是耍了个花招,说我们不寻求宇宙内最短程序,我们只在一个受限的假设空间寻找最简洁的rule,于是统计学家们就在假设空间上做文章。很不幸,限制假设空间后,搜索出最优rule时常复杂度很高,npc是家常便饭。于是进一步限制rule的结构,只变化参数才好操作。

对于输入的数据,当你知晓其规律时才能根据规律写一个很短的程序生成同样的数据。当你不知道规律时,只能按原样printf。所以根本是要挖掘规律,统计由数据推模型就是在搞一件这么不可能的事。哈哈。

来源: www.guzili.com

Tags :

留下你的评论