概率与统计

概率与统计

作者：@老师木
来源: www.guzili.com

Probability和statistics是不同的概念，前者是给定模型计算数据的可能性，后者是给定数据的可能性推模型。获图灵奖的两位mler做的基本是概率，不是统计。统计什么时候能拿图灵奖呢，我看不可能。据说数学系最烂的人才去搞统计。

概率很美，统计很丑，再漂亮的统计也是基于假设的，而人为的假设缺乏客观。科学要么是公理，要么是逻辑上必然，而不喜欢想当然。

在统计方法中，所有的模型都是错误的，不过无所谓，能用就行。假设获得一个标准正态分布的采样，却不告诉你这个真正的分布是什么，请你建立一个模型（概率分布）解释和预测这批数据，有可能推理出正态分布吗？若建立成其它概率分布有什么影响？

因此在学习分类器时，面对一组特征，我们当然喜欢和目标y互信息最大的特征。尽管道理上互信息为特征选择提供了方向，但并没有带来多少可操作性，因为要计算互信息，必须先知道x和y的概率分布。然而一旦有它们的概率分布，我们可以直接做贝叶斯决策就能达到贝叶斯错误率，而不必在求助于互信息。

可见推理数据的概率分布是学习的根本难题。从信息论的角度，数据的最优（短）编码也由概率分布决定，即熵（哈夫曼编码是一种最优前缀吗，还记得它怎么由概率分布构造出来的吗）。知道概率分布，就可以获得最小错误率，最短描述长度。那么概率分布好算吗？

科学喜欢简洁的rule，简洁即漂亮。可惜，终极简洁不可计算。任给一批观测数据，背后最简洁的rule是什么？科尔莫格罗夫说最简洁的rule就是生成这批数据的最短的程序。这个定义简直太绝了，有个名字是描述复杂性。计算理论说，不存在一个图灵机，输入一些数据，就输出一个能打印这些数据的最短的程序。

统计学家一看这个问题不可计算，那还搞个什么？于是耍了个花招，说我们不寻求宇宙内最短程序，我们只在一个受限的假设空间寻找最简洁的rule，于是统计学家们就在假设空间上做文章。很不幸，限制假设空间后，搜索出最优rule时常复杂度很高，npc是家常便饭。于是进一步限制rule的结构，只变化参数才好操作。

对于输入的数据，当你知晓其规律时才能根据规律写一个很短的程序生成同样的数据。当你不知道规律时，只能按原样printf。所以根本是要挖掘规律，统计由数据推模型就是在搞一件这么不可能的事。哈哈。

来源: www.guzili.com

Tags : 老师木

我爱计算机