「无中生有」计算机视觉探奇（下）

作者：魏秀参，南大Lamda实验室在读博士。研究兴趣是计算机视觉和机器学习。

声明：原文版权属于CSDN《程序员》杂志原创，发表于2016年7月刊。

计算机视觉 (Computer Vision, CV) 是一门研究如何使机器“看”的科学。1963年来自MIT的Larry Roberts发表的该领域第一篇博士论文“Machine Perception of Three-Dimensional Solids”，标志着CV作为一门新兴人工智能方向研究的开始。在发展了50多年后的今天，我们就来聊聊最近让计算机视觉拥有「无中生有」能力的几个有趣尝试：1）超分辨率重建；2）图像着色；3）看图说话；4）人像复原；5）图像自动生成。可以看出，这五个尝试层层递进，难度和趣味程度也逐步提升。（注：本文在此只谈视觉问题，不提太过具体的技术细节，若大家对某部分感兴趣，以后再来单独写文章讨论 🙂 本文为下半部分，含看图说话，人像复原和图像自动生成。

"看图说话" (Image Caption)

常说“图文并茂”，文字是除图像外另一种描述世界的方式。近期，一项名为“image caption”的研究逐渐升温起来，其主要任务是通过计算机视觉和机器学习的方法实现对一张图像自动地生成人类自然语言的描述，即“看图说话”。值得一提的是，在今年的CV国际顶会CVPR上，image caption被列为了一个单独的session，其热度可见一斑。一般来讲在image caption中，CNN用来获取图像特征，接着将图像特征作为语言模型LSTM（RNN的一种）的输入，整体作为一个「end-to-end」的结构进行联合训练，最终输出对图像的语言描述（见下图）。

目前image caption领域的最好结果[3]来自澳大利亚University of Adelaide的Chunhua Shen教授团队。与之前image caption工作相比，他们的改进与刚才提到的颜色恢复简直有异曲同工之妙，同样是考虑利用图像中物体的类别作为较精准的“依据”来更好的生成自然语言描述，即下图中的红色框框圈起的部分。Image caption的急速发展不仅加速了CV和NLP在AI大领域内的交融，同时也为增强现实应用奠定了更加坚实的技术基础。另外，我们更乐于看到今后日趋成熟的image caption技术嵌入到穿戴式设备上，彼时盲人即可间接的“看到光明”。

图6 文献[3]中的image caption网络结构。图像作为输入，首先经过微调后的多标记（Multi-label）分类网络得到预测的类别标签，并以此连同图像的深度特征作为下方语言模型LSTM的输入，最终进行联合训练。下图左一可完成image caption任务，左2为单个单词图像问答任务，右1为句子级别图像问答任务。

人像复原 (Sketch Inversion)

就在六月初，荷兰科学家在arXiv上发布了他们的最新研究成果[4]——通过深度网络对人脸轮廓图进行「复原」。如下图所示，在模型训练阶段，首先对真实的人脸图像利用传统的线下边缘化方法获得对应人脸的轮廓图，并以原图和轮廓图组成的“图像对”作为深度网络的输入，进行类似超分辨率重建的模型训练。在预测阶段，输入为人脸轮廓（左二sketch），经过卷积神经网络的层层抽象和后续的“还原”可以逐步把相片般的人脸图像复原出来（右一），与最左边的人脸真实图像对比，足够以假乱真。在模型流程图下还另外展示了一些人像复原的结果，左侧一列为真实人像，中间列为画家手工描绘的人脸轮廓图，并以此作为网络输入进行人像复原，最终得到右侧一列的复原结果——目测以后刑侦警察再也不用苦练美术了?。

图7 文献[4]中人像复原算法流程。详述见文中。

图8 人像复原效果示例。

图像自动生成

回顾刚才的四个工作，其实他们的共同点是仍然需要依靠一些“素材”方可「无中生有」，例如“人像复原”还是需要一个轮廓画才可以恢复人像。接下来的这个工作则可以做到由任意一条随机向量生成一张逼近真实场景下的图像。

「无监督学习」可谓计算机视觉的圣杯。最近该方向的一项开创性工作是由Ian Goodfellow和 Yoshua Bengio等提出的「生成对抗网络」(Generative Adversarial Nets, GAN)。该工作的灵感来自博弈论中的零和博弈。在二元零和博弈中，两位博弈方的利益之和为零或一个常数，即一方有所得，另一方必有所失。而GAN中的两位博弈方分别由一个「判别式网络」（图左）和一个「生成式网络」（图右下半部分）充当。

图9 文献[5]中的生成式网络（图左），及判别式网络（右图上）。详述见文中。

其中，「判别式网络」的输入为图像，其作用是判断是一张真实图像还是一张由计算机生成的图像；「生成式网络」的输入为一条随机向量，可以通过网络“生成”一张合成图像。这张合成图像亦可作为「判别式网络」的输入，只是此时，在理想情况下应能判断出它是由计算机生成的。

接下来，GAN中的零和博弈就发生在「判别式网络」和「生成式网络」上：「生成式网络」想方设法的让自己生成的图像逼近真实图像，从而可以“骗过”「判别式网络」；而「判别式网络」也时刻提高警惕，防止「生成式网络」蒙混过关……你来我往，如此迭代下去，颇有点“左右互搏”的意味。GAN整个过程的最终目标是习得一个可以逼近真实数据分布的「生成式网络」，从而掌握整体真实数据的分布情况，因此取名「生成对抗网络」。需要强调的是，GAN不再像传统的监督式深度学习那样需要海量带有类别标记的图像，GAN不需任何图像标记即可训练，也就是进行无监督条件下的深度学习。2016年初，在GAN的基础上，Indico Research和Facebook AI实验室将GAN用深度卷积神经网络进行实现（称作，DCGAN, Deep Convolutional GAN），工作发表在国际表示学习重要会议ICLR 2016上，并在无监督深度学习模型中取得了当时最好的效果。下图展示了一些由DCGAN生成的"bedroom"图像。

图10 DCGAN生成的“卧室”图像。

更为interesting的是，DCGAN还可以像word2vec一样支持图像“语义”层面的加减。

图11 DCGAN“语义加减”示意。

另外，前些天“生成式计算机视觉”研究领域大牛UCLA的Song-Chun Zhu教授团队发布了他们基于生成式卷积网络的最新工作STGConvNet：不仅可以自动合成动态纹理，同时还可以合成声音，可以说将无监督计算机视觉又向前推进了一大步。（下图是两个demo GIF，左侧是真实动态纹理，右侧是STGConvNet的合成纹理。不动戳我～）

图12 文献[6]动态纹理生成效果。

结语

如今借着「深度学习」的东风，计算机视觉中绝大多数任务的性能表现都被“刷”上了新高，甚至连“人像复原”，“图像生成”类似「无中生有」的“奇谈”都能以较高质量地实现，着实让人们激动不已。不过尽管如此，事实上距离所谓的颠覆人类的AI“奇点”还相当遥远，并且可以预见，现阶段甚至相当长的一段时间内，计算机视觉或人工智能还不可能做到真正意义上的「无中生有」，即“自我开创”或称为“自我意识”。

同时，也非常庆幸我们可以目睹并且亲身经历这次计算机视觉乃至是整个人工智能的革命浪潮，相信今后一定还会有更多「无中生有」般的奇迹发生。此刻，我们站在浪潮之巅，因此我们兴奋不已、彻夜难眠。

References:

[1] Chao Dong, Chen Change Loy, Kaiming He, Xiaoou Tang. Image Super-Resolution Using Deep Convolutional Networks, IEEE Transactions on Pattern Analysis and Machine Intelligence, Preprint, 2015.

[2] Satoshi Iizuka, Edgar Simo-Serra, and Hiroshi Ishikawa. Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic Image Colorization with Simultaneous Classification, In Proc. of SIGGRAPH 2016, to appear.

[3] Qi Wu, Chunhua Shen, Lingqiao Liu, Anthony Dick, Anton van den Hengel. What value do explicit high level concepts have in vision to language problems, In Proc. of CVPR 2016, to appear.

[4] Yağmur Güçlütürk, Umut Güçlü, Rob van Lier, Marcel A. J. van Gerven. Convolutional Sketch Inversion, arXiv:1606.03073.

[5] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, Yoshua Bengio. Generative Adversarial Nets, In Proc. of NIPS 2014.

[6] Jianwen Xie, Song-Chun Zhu, Ying Nian Wu. Synthesizing Dynamic Textures and Sounds by Spatial-Temporal Generative ConvNet, arXiv:1606.00972.

voters

我爱计算机

Report Story

Tags : 计算机视觉

我爱计算机

「无中生有」计算机视觉探奇（下）

留下你的评论

Cancel Reply

最近热文

今日头条

分类导航

站内搜索

猜你喜欢

留下你的评论

最近热文

今日头条

分类导航

站内搜索

登录