对李国杰院士大数据一文的不同意见

作者:@老师木
来源:www.guzili.com

李院士在文末谦虚的说此文是抛砖引玉,却木有看到什么玉,只有誉。以李院士的能量,恐怕又要推动国家立什么大项目了。前不久,北航的怀院士讨论大数据的事情才过去不久。

这篇文章有点不严谨,频繁引用科普畅销书作者的论点,而木有批判思维。譬如克里斯安德森,就是写长尾理论那个。这种作家素来爱耸人听闻的,是只罗列现象就能提出一种理论那种。

文中讨论的一些问题早已有深入研究,根本不是大数据概念有了之后突然出现的。关于相关关系与因果关系,都研究多少年了。2011年图灵奖得主judea pearl最著名的成果都和causality有关,他定义的structural equation model已经成为心理学、社会科学学者分析因果关联的标准工具。

关于需要多少数据才能学出有意义的结果,在机器学习领域也是well defined问题,不是新事物,样本复杂性sample complexity就是讨论这个问题啊。2010年图灵奖得主瓦伦特(英文名记不全)因这方面的奠基贡献(pac理论)而得奖。

李院士文中最不严谨之处是称吉姆格雷为已故图灵奖得主。据我所知,他只是拿到船票。(编者注:Jim Gray在一次外出中失踪,后多年寻找不到踪迹。这里,@老师木 又调皮了。。。 )

李院士文章除了“因为”“所以”之间木有逻辑关系,有些观点挺“肤浅”的:

从数据的角度看,学术圈的人一直在琢磨当数据不充分时用个什么trick,用个什么复杂的原理能使算法更优。而工业界的人面临的是海量真实的数据,“数据不充分”不是问题,懂机器学习的人都知道,当数据足够多时,简单的算法等价于复杂算法。譬如此时MLE参数估计就可以了,用不上复杂多层。Google高管说“没有模型也可以成功”,“没有模型,科学也可以进步”实在不是什么惊人的事情,这背后恰恰是理论保证的。数据特别多,就不需要什么高深的机器学习算法了,当然除了和复杂度有关的算法,但并行计算很强大,即使是复杂度也不太需要考虑。

大数据不需要复杂算法、模型只是表象,其实大数据对模型、理论的需求更加迫切。我们说的学习都是归纳法,自动或半自动发现数据内在的统计规律,一旦发现规律就可以得到对数据更简短的描述,又称compact representation,所有的学习算法都是在做这件事情,所有的自然科学研究也都在做这个。

Learning representation当然好,机械模仿生物神经网络的结构和行为当然也有一定价值,但这还不够。好的representation一定是捕捉了数据regularity从而使表示又简洁又有效。但regularity的挖掘又何尝容易,搞机器学习的也无非是在一个假设空间找个还凑合的了事。Learning as compression、最小描述长度、奥卡姆剃刀、科尔莫格罗夫复杂性、描述复杂性等等都是这件事相关的学术思想。

从压缩的观点看,描述数据所需要的bit数优两部分构成,一部分是模型(规则)本身所需要的bit,一种是用模型解释数据时得到的残差所需要的bit数。(注意:有了模型,我们只需要描述残差和模型就可重构数据)。当模型(规则)和残差解释数据不会带来压缩效果时,就不要用模型了。

中国的科技由院士掌舵,院士的思想受美帝畅销书作家指引。

自然界数据的模式空间是指数级的,但因为真实数据具有内在规律,使得各种模式出现的概率是非均匀的,一部分有意义的模式以非常高的概率出现,另一部分模式则在自然界从未出现。对于有的问题,尽量美剧所有可能的模式是指数个,但海量数据可能导致每一种有意义的模式真的被枚举到,机器见过每个模式:以二值图像为例,n*n可以表示2^(n*n)种不同的图像,可涵盖世界上所有图像模式,不过当把所有模式打印出来时,人们会发现其中极小比例的模式是有意义、真实存在的,而其中能被称作人脸的模式就更少了。

对于有的问题,大数据意味着,任何一个有益的模式机器都看到过,而且可能看到不止一次,当然不再需要模型。机器学习归根到底是记忆,只不过是稍微聪明的记忆而已,有一定的泛化能力,和人类的记忆还不能比。有的问题看上去高维、稀疏,那是因为对条件独立挖掘的不够。

李院士文中把大数据可视化也列入挑战问题,我不赞同。流形是数据可视化的利器。专家不需要数据可视化,可视化是为政客、记者、群众准备的,换句话说是获取关注的手段。

留下你的评论