计算机视觉与生物视觉之争

作者: 谷鹄翔,  中国科学院自动化研究所2016级毕业博士生,导师为潘春洪老师。曾在MIT Tomaso Poggio教授组访问14个月,从事M-theory相关研究。研究方向和兴趣包括计算机视觉,认知科学,机器学习,数据挖掘等。邮箱为 guhuxiang@gmail.com,微博账号为@谷鹄翔_CASIA

推荐:本文揭示了计算机视觉和生物视觉的微妙联系,之所以微妙有两点:1)生物视觉名义上指导了计算机视觉,但进展实际比后者还慢;2)计算机视觉的发展大多来源于直觉和经验,和生物视觉关系仅限在概念层面。

历史经验表明研究灵长类动物尤其是人类的视觉系统对计算机视觉的研究具有促进作用。目前,众多模拟生物视觉系统设计的计算机视觉算法在实际应用中得到广泛应用。例如Lowe教授提出的SIFT局部特征描述子[1],就是受到初级视皮层(V1区)处理视觉信息的特性而设计的;Hinton教授提出的DNN模型[2]是他坚守神经科学数十年的心血结晶,而LeCun教授在Hinton组做博后时提出的CNN模型[3]也受到了生物视觉的影响。但另一方面,人类对灵长类和自身大脑视觉系统的认知还比较粗浅,完全模拟视觉系统建立的计算模型(例如HMAX[4])也没达到深度学习这么影响深远,因此说生物视觉的发现指引了计算机视觉的研究又有点差强人意。例如Songchun Zhu教授对于目前研究计算机视觉首先要弄懂生物视觉系统的工作原理持反对态度,他的论据有两点:(1)生物视觉系统的发现往往滞后于计算机视觉领域具体算法的提出;(2)计算机视觉算法具有很强的实际应用价值,在具体视觉任务中的表现远超过生物视觉算法。而Lecun教授本身虽然承认CNN模型中的一些部分是从神经科学中获得了灵感,但也坚持相当多部分与神经科学毫不相干,相反,它们是来源于理论、直觉和经验探索。综上所述,计算机视觉与生物视觉理论之间虽然互相促进,但也的确存在很多争议和分歧,计算机视觉与生物视觉的争论貌似陷入了鸡生蛋、蛋生鸡的悖论。

近年来,众多峰会或国际会议最后的小组合议议题都探讨过计算机视觉和生物视觉抑或神经科学。但实际上,这个争论由来已久。回到20世纪80年代初期,麻省理工学院的Marr教授和Poggio教授都是视觉神经科学的积极倡导者。但到20世纪80年代中期,Marr教授越来越偏向于用数学公式理论的方式研究具体视觉问题[5]。Marr认为问题的关键在于:视觉信息处理必须分析给定的任务,而分析的基础则是客观的物质世界。用公式来表示计算理论的一个决定性的步骤,就是要找出视觉世界的特性,给计算问题加上约束条件,使它含义明确,能够获解(例如受约束的能量最小化问题等)。视觉问题的一个约束条件就是最终得出的描述一律由图像导出。因此在一般情况下,视觉早期处理的表象结构主要决定于能从图像中计算出什么东西来(特征提取),而后期处理的表象结构则还受视觉任务的影响(任务相关特征学习和分类器设计)。Marr提出的上述方法具有非常重大的意义,它使得视觉信息科学得以迅速发展壮大,让视觉计算理论建立在现实世界的物理学和图像的公式化的基本定律这样牢固的基础上,最终发展成计算机视觉这门真正的学科。而Poggio教授则一直坚守在视觉神经科学的最前线,通过生理学和解剖学的方式揭示灵长类动物的认知机理,大大促进了认知科学和计算神经科学的发展。Poggio教授等模拟人类视觉系统提出的HMAX模型[4]及其改进的标准模型[6]在很多视觉任务中超过了当时火热的SIFT算子,而近年来提出的M-theory理论[7]通过无监督学习的方式在LFW人脸识别数据库上也达到了深度学习模型相媲美的识别率。

Marr教授奠基的计算机视觉学科和Poggio教授领路的认知科学和计算神经科学给研究人员展示了两条不同解决视觉问题的道路。就如制造飞机初期,人类一般通过模拟鸟类飞行原理而设计了各种扑翼机,但扑翼机在实际应用中却屡屡受挫,而在制造飞机时所发现的飞行动力学原理却让人类真正飞上了蓝天。因为鸟类作为生物本身具有局限性,不可能做到利用喷射气流等方式前进。类似的,人类不可能拥有计算机强大而不知疲倦的计算能力,但正是这种能力才促进了大规模深度学习在各类实际应用中大展身手。另外一方面,现在的飞机还远远达不到鸟类的智能,在无动力飞行中飞机也远落后老鹰与鸽子等鸟类。与此对应,目前只有少量样本或者没有样本时,计算机视觉算法(如深度学习)的性能还达不到计算神经模型(如M-theory理论[7])的性能。

图一

综上所述,计算机视觉理论和生物视觉理论没有谁优谁劣,谁先谁后,只是两种研究视觉问题的不同方式,各有优势也各具局限性。在面对具体视觉问题时,研究人员可以取长补短,利用计算机视觉算法指导生物实验研究,生物实验研究的结果又可以促进计算理论的研究。就像Shimon Ullman教授等人发现,婴儿从小对运动的物体更感兴趣(表2.2汇总了文献[8]小孩1-5岁间的认知过程),也是从运动中形成对物体的感知。例如婴幼儿通过多次观察父母运动的手而感知导手与背景之间的差别,从而形成对手形状的认知。在具体算法建模中,他们在视频中提取物体边缘的先验信息,加入到已有的分割算法中,大大提升了物体的分割效果[9]。而在物体受到遮挡或者图像物体不完整时,目前的计算机视觉算法的检测往往不够稳定,识别率也不高。Shimon Ullman教授等人就将物体等分成很多细小单元,探索人类视觉系统所能识别的最小单元,发现图像最小识别单元的微小变化对最后结果影响巨大。这个发现为设计更好的计算机识别算法又指引了新的方向[10]。

注:本文节选自谷鹄翔的博士毕业论文《基于视觉机理的光照及形状不变性研究》第二章第五小节。Marr理论及其评论部分引用了《Marr及其视觉计算理论》;文中提到的Zhu和LeCun的言论都是来自与其本人的交流。

参考文献:
[1] David G. Lowe. Distinctive image features from scale-invariant keypoints. In International Journal of Computer Vision, volume 60, pages 91–110, 2004.
[2] Geoffrey E Hinton and Ruslan R Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504–507, 2006.
[3] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition.In Neural Computation, volume 1, pages 541–551, 1989.
[4] M. Riesenhuber and T. Poggio. Hierarchical models of object recognition in cortex. volume 2, page 1019–1025, 1999.
[5] D. Marr. Vision: A computational investigation into the human representation and processing of visual information, volume 8. University of California Press, 1981.
[6] Serre T, Oliva A, and Poggio T. A feedforward architecture accounts for rapid categorization. In PANS, volume 104, pages 6424–6429, 2007.
[7] T. Poggio, J. Mutch, F. Anselmi, J. Z. Leibo, L. Rosasco, and A. Tacchetti. The computational magic of the ventral stream: sketch of a theory (and why some deep architectures work). MIT-CSAIL-TR-2012-035, 2012.
[8] M. S. Banks and P. Salapatek. Acuity and contrast sensitivity in 1-, 2-, and 3-month-old human infants. In Acuity and contrast sensitivity in 1-, 2-, and 3-month-old human infants, volume 17, page 361–365, 1978.
[9] S. Ullman, D. Harari, and N. dorfman. From simple innate biases to complex visual concepts. In Proceedings of the National Academy of Sciences PANS, volume 109, pages 18215–18220, 2012.
[10] S. Ullman, L. Assif, E. Fetaya, and D. Harari. Atoms of recognition in human and computer vision. In Proceedings of the National Academy of Sciences PANS, volume 113, pages 2744–2749, 2016.

Leave Your Comment