人工智能新突破:计算机正在学习从更高维度观察世界

神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。

编者按:图像识别既是深度学习最早的突破,也是最成功的应用之一。但是随着应用的深入,传统深度学习方法逐渐黔驴技穷。甚至令一些业界大牛喊出来AI新的凛冬将至。不过,最近AI研究人员从物理学规律上寻找到了灵感,找到了让机器可以识别高维度对象的办法,然后物理学家又发现,AI的这一进展甚至还能为物理研究做出更大的贡献。这是一篇“规范等变卷积神经网络”的介绍读物,作者是JOHN PAVLUS,原文发表在Quanta Magazine上,标题是:Computers Are Learning to See in Higher Dimensions

人工智能新突破:计算机正在学习从更高维度观察世界

Taco Cohen,高通及阿姆斯特丹大学机器学习研究员,规范等变卷积神经网络首席架构师

为了让深度学习突破二维空间,研究人员的解决方案跟物理有着密切联系。就像爱因斯坦的广义相对论与粒子物理学的标准模型那样,描述世界的物理理论表现出一种所谓的“规范等变”的属性。这意味着在这个世界上的数量及其关系并不依赖于任意参照系(或“规范”);无论观察者是移动还是静止,也不管标尺上的数字离得有多远,它们都是一致的。用不同量表进行的测量必须以一种保持底层事物间关系不变的方式进行转换。

比方说,假设先以码为单位测一个足球场的长度,然后以米为单位再测一次。测出来的数字会变,但那是可预测的。同样地,两位摄影师从两个不同的位置拍摄物体的照片会产生不同的图像,但是这些图像之间可以彼此关联。不管视角或测量单位如何,规范等变均可确保物理学家的现实模型保持一致。而规范CNN即是对数据做出了相同的假设。

纽约大学的物理学家凯尔·克兰默(Kyle Cranmer)说:“ (来自物理学的)同样的想法是没有特殊的方向,他们希望将其引入神经网络。”他将机器学习应用于粒子物理学数据。“他们想出了办法。”

摆脱二维

2015年,伦敦帝国理工学院计算机科学家Michael Bronstein创造了“几何深度学习”这个词来描述为摆脱二维并设计可学习非平面数据模式神经网络的新努力。这个术语及相关研究工作很快就火起来了。

Bronstein及其合作者知道,要想突破欧几里德平面,他们需要重新构思一种基本的计算方法,这方法先得让神经网络识别2D图像特别高效。这个方法叫做“卷积”,它然神经网络的一层对输入数据的一小块执行数学运算,然后把结果传递给网络的下一层。

Bronstein解释说:“大体上,你可以把卷积看作是一个滑动窗口。”卷积神经网络就像滤波器一样将很多这样的“窗口”滑动过数据,从而检测数据是否存在某种模式。对于猫照片,经过训练的CNN也许会利用滤波器来检测原始输入像素里面的低级特征,比方说边缘。而这些特征又会被传递到网络的其他层,去执行其他卷积并提取更高层特征,比方说眼睛、尾巴或三角形的耳朵。接受过识别猫训练的CNN最终会用这些分层卷积的结果为整幅图像分配标签(比方说“猫”或“不是猫”)。

人工智能新突破:计算机正在学习从更高维度观察世界

阿姆斯特丹大学物理学家Miranda Cheng

就利用了该原理的一个简单的例子,“平移等变”,卷积网络一举成为深度学习最成功的方法之一。检测到图像中某个特征(比方说垂直边缘)的窗口滤波器会在像素平面滑动(或“平移”) ),并对所有这些垂直边缘的位置进行编码;然后,再建立起标记这些位置的“特征图谱”,并将其传递给网络的下一层。因为有了平移等变,特征图谱的创建成为可能:神经网络“假定”同一特征可以出现在2D平面的任何位置,并且不管垂直边缘出现在右上角还是左下角,自己都能够将垂直边缘识别为垂直边缘。

Weiler 说:“等变神经网络的关键是将这些明显的对称放置进网络结构里面,这有点类似一顿免费的午餐。”

到了2018年,Weiler、Cohen及其博士导师Max Welling已经扩大了这种“免费午餐”的范围,将其他等变也纳入进来。他们的“群等变”(group-equivariant) CNN无需用旋转或镜像方向样本训练即可检测平面图像上这些特征的存在;球面CNN可以根据球体表面上的数据创建特征图谱而不需要将其扭曲为平面投影。

这些方法仍然不够通用,没法处理崎岖不平、不规则结构流形(从土豆到蛋白质,再到人体,乃至于时空弯曲,几乎涵括了所有物体的几何形状)的数据。对于神经网络,这些类型的流形“全局”对称性来让神经网络做出等变假设:因为它们上面的每个位置都是不同的。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注