对李国杰院士大数据一文的不同意见

作者：@老师木
来源：www.guzili.com

李院士在文末谦虚的说此文是抛砖引玉，却木有看到什么玉，只有誉。以李院士的能量，恐怕又要推动国家立什么大项目了。前不久，北航的怀院士讨论大数据的事情才过去不久。

这篇文章有点不严谨，频繁引用科普畅销书作者的论点，而木有批判思维。譬如克里斯安德森，就是写长尾理论那个。这种作家素来爱耸人听闻的，是只罗列现象就能提出一种理论那种。

文中讨论的一些问题早已有深入研究，根本不是大数据概念有了之后突然出现的。关于相关关系与因果关系，都研究多少年了。2011年图灵奖得主judea pearl最著名的成果都和causality有关，他定义的structural equation model已经成为心理学、社会科学学者分析因果关联的标准工具。

关于需要多少数据才能学出有意义的结果，在机器学习领域也是well defined问题，不是新事物，样本复杂性sample complexity就是讨论这个问题啊。2010年图灵奖得主瓦伦特（英文名记不全）因这方面的奠基贡献（pac理论）而得奖。

李院士文中最不严谨之处是称吉姆格雷为已故图灵奖得主。据我所知，他只是拿到船票。（编者注：Jim Gray在一次外出中失踪，后多年寻找不到踪迹。这里，@老师木又调皮了。。。）

李院士文章除了“因为”“所以”之间木有逻辑关系，有些观点挺“肤浅”的：

从数据的角度看，学术圈的人一直在琢磨当数据不充分时用个什么trick，用个什么复杂的原理能使算法更优。而工业界的人面临的是海量真实的数据，“数据不充分”不是问题，懂机器学习的人都知道，当数据足够多时，简单的算法等价于复杂算法。譬如此时MLE参数估计就可以了，用不上复杂多层。Google高管说“没有模型也可以成功”，“没有模型，科学也可以进步”实在不是什么惊人的事情，这背后恰恰是理论保证的。数据特别多，就不需要什么高深的机器学习算法了，当然除了和复杂度有关的算法，但并行计算很强大，即使是复杂度也不太需要考虑。

大数据不需要复杂算法、模型只是表象，其实大数据对模型、理论的需求更加迫切。我们说的学习都是归纳法，自动或半自动发现数据内在的统计规律，一旦发现规律就可以得到对数据更简短的描述，又称compact representation，所有的学习算法都是在做这件事情，所有的自然科学研究也都在做这个。

Learning representation当然好，机械模仿生物神经网络的结构和行为当然也有一定价值，但这还不够。好的representation一定是捕捉了数据regularity从而使表示又简洁又有效。但regularity的挖掘又何尝容易，搞机器学习的也无非是在一个假设空间找个还凑合的了事。Learning as compression、最小描述长度、奥卡姆剃刀、科尔莫格罗夫复杂性、描述复杂性等等都是这件事相关的学术思想。

从压缩的观点看，描述数据所需要的bit数优两部分构成，一部分是模型（规则）本身所需要的bit，一种是用模型解释数据时得到的残差所需要的bit数。（注意：有了模型，我们只需要描述残差和模型就可重构数据）。当模型（规则）和残差解释数据不会带来压缩效果时，就不要用模型了。

中国的科技由院士掌舵，院士的思想受美帝畅销书作家指引。

自然界数据的模式空间是指数级的，但因为真实数据具有内在规律，使得各种模式出现的概率是非均匀的，一部分有意义的模式以非常高的概率出现，另一部分模式则在自然界从未出现。对于有的问题，尽量美剧所有可能的模式是指数个，但海量数据可能导致每一种有意义的模式真的被枚举到，机器见过每个模式：以二值图像为例，n*n可以表示2^（n*n）种不同的图像，可涵盖世界上所有图像模式，不过当把所有模式打印出来时，人们会发现其中极小比例的模式是有意义、真实存在的，而其中能被称作人脸的模式就更少了。

对于有的问题，大数据意味着，任何一个有益的模式机器都看到过，而且可能看到不止一次，当然不再需要模型。机器学习归根到底是记忆，只不过是稍微聪明的记忆而已，有一定的泛化能力，和人类的记忆还不能比。有的问题看上去高维、稀疏，那是因为对条件独立挖掘的不够。

李院士文中把大数据可视化也列入挑战问题，我不赞同。流形是数据可视化的利器。专家不需要数据可视化，可视化是为政客、记者、群众准备的，换句话说是获取关注的手段。

Tags : 大数据, 老师木, 院士

我爱计算机

对李国杰院士大数据一文的不同意见

留下你的评论

Cancel Reply

最近热文

今日头条

分类导航

站内搜索

留下你的评论

最近热文

今日头条

分类导航

站内搜索

登录