F视觉对大脑来说是一项艰巨的工作。我们能将电磁辐射光转换成一个有意义的物体和场景的世界,这是很了不起的。毕竟,射入眼睛的光只是一束具有不同波性的光子,不断投射到我们的视网膜上,视网膜是我们眼睛后面的一层细胞。在它被我们的眼睛传导之前,光没有亮度或颜色,而这是动物感知的特性。它基本上是一团能量。我们的视网膜将这种能量转化为电脉冲,在我们的神经系统内传播。不知怎的,这就形成了一个世界:天空、孩子、艺术、极光,偶尔还有鬼魂和不明飞行物。
当你走近看的时候,你会更惊讶。投射在每只眼睛中的图像是上下颠倒的,与另一只眼睛中的图像的视角略有不同。我们的神经系统重新定位它们,匹配投影中的每个点,并利用图像之间的几何差异,在一个统一的场景中创造出深度立体视觉的外观。它处理基本特征,比如形状和运动。它将物体和背景分离开来,将我们自身的运动或物体的运动所引起的视觉运动区分开来。据估计,人类大脑中用于视觉的比例从30%到50%不等。
每一种新的细胞类型似乎都找到了一块新的拼图。
今天,绘制人类大脑图是科学上最伟大的项目之一。科学家们已经还有很长的路要走在他们了解大脑的结构以及我们每一个动作和感知背后数十亿神经元的相互作用之前。然而,视觉处理是大脑活动中最广为人知的方面之一。科学家们现在正在用越来越强大的计算机模拟大脑的视觉系统,对视觉如何工作有了新的认识,并反过来将这些认识转化为新的技术。
计算机现在可以探测到特定物体的存在并识别出人;它们可以从二维图像中重建三维场景,发现肿瘤,帮助法医识别证据,并在繁忙的街道上自动导航车辆。它们被开发用于探测海底和拆除危险的雷区。在未来,计算机视觉预计将在前瞻性安全系统、识别、少数报告式的犯罪嫌疑人或犯罪行为模式中发挥关键作用。
视觉技术是如何发展到现在的?它产生于科学的一个方面,这个方面带来了许多突破:意外发现。如果不是半个多世纪前在巴尔的摩的一个生理实验室里发生的事故,视觉科学就不会有今天的成就。
我1958年,研究活的动物神经细胞的反应是困难的。为了研究视觉,生理学家通常会使用麻醉的猫。但是,小心地把他们固定在适当位置的检查装置对移动极其敏感;就算是心跳的搏动也能让一切失控。当32岁的加拿大科学家大卫·胡贝尔(David Hubel)在约翰·霍普金斯大学(Johns Hopkins University)做博士后研究时,通过仔细的加工方法,他发明了钨电极和液压定位系统。
有了这项先进的技术,Hubel和他的新同事Torsten wiesel开始探索活猫的视觉皮层。这对生理学来说是一个勇敢的新领域,他们很乐观,因为有了这种奇特的电极,现在可以记录单个神经元的活动了。他们想弄清楚这些细胞在促进视力方面可能做了什么。例如,它们是否能找到对不同的、可识别的物体——叉子、山脉、厨房——做出反应的细胞?如果你能原谅这个双关语,他们是盲目进入的。
建立在过去的知识基础上来圣地亚哥Ramón y卡哈尔他们对视网膜和脑干中的神经细胞的连接和反应模式略知一二,而这些神经细胞是供给视觉皮层细胞的。他们知道如何通过投射光点来触发这些视网膜和脑干神经元传递电脉冲(本质上是信息)。这些斑点必须聚焦在猫的视野范围内,这是一个特定的细胞敏感的区域。
录制过程要花好几个小时——如果你能找到一个你可以可靠地刺激的细胞,即使只是一点点,这本身就是一个胜利,有时你直到夜幕降临才“幸运”。这意味着你要在实验室里花一整晚的时间,通过反复试验,通过调整斑点的位置、大小或亮度,来找到细胞反应的模式。这是一项乏味的工作。有一次,Hubel和Wiesel甚至尝试用杂志上的女性照片来刺激猫的神经元。但是经过一个月的实验,他们并没有取得任何进展。
然后,原本平淡无奇的录音变成了一场冒险,为他们赢得了诺贝尔奖。在对斑点进行了几个小时的再次尝试后,他们终于在一只猫的皮层细胞中找到了一个给他们一个小反应的细胞。然后,在更换投影仪幻灯片时,当屏幕上没有斑点时,细胞突然像机关枪一样爆炸了!这与他们之前听到的任何反应都不一样。是什么导致了它吗?他们的心在狂跳。
平静下来后,他们又试着重新插入滑梯。但令他们沮丧的是,这并没有起作用。他们意识到他们必须做刚刚做过的事情。但是他们做了什么?要是他们能记住就好了。我请现年97岁的威塞尔讲述了接下来发生的事情。通过Zoom,威塞尔兴奋地告诉我,“我们有了一个聪明的主意,改变了滑动边缘的方向,这就是我们发现它的方式!”我们冲进大厅,把所有人都叫来了,因为我们意识到这太不可思议了。真的不可思议。”他们发现,唯一能在细胞中触发如此多活动的是投影仪屏幕上的细黑线,这条线是由玻片边缘上的圆点造成的。 The key to getting the cell to fire was to project that slide edge at the right orientation.
我在接下来的几周里,Hubel和Wiesel发现了皮质细胞的反应模式。投影线触发了每一个,但只有在特定角度显示时才会触发。当你离开细胞的“首选”角度时,它们产生的电脉冲数量会逐渐减少,达到一个90度角的最小发射,相对于它的最大反应方向。与此同时,似乎是故意混淆他们,两位科学家还发现了其他的皮质细胞,奇怪的是它们没有偏好的方向。这些细胞不关心直线的角度,只关心有一条直线。他们称前者为简单细胞,后者为复杂细胞,因为相对而言,他们将反应模式的差异归因于简单连接和复杂连接。尽管如此,每一种新的细胞类型似乎都找到了一块新的拼图。但这里有统一的原则吗?这些碎片拼起来了吗?
不知怎的,这就形成了一个世界:天空、孩子、艺术、极光、鬼魂和不明飞行物。
他们所做的。他们探索的结果是,他们发现的每一种细胞都有一种反应模式,这种反应模式可以由馈入它的细胞和馈入这些细胞的细胞产生。似乎有一个由节点和层次组成的网络,从视网膜开始。它揭示了这些细胞是如何一起工作的,从而在猫的视野中创造出某种东西的神经表征;一个与猫在那个时刻可能看到的东西完全对应的物理实例。这是心灵和大脑之间的一种深刻的联系。
Hubel和Wiesel指出,视觉是由一连串的放电细胞构成的。每一个视觉信息都刺激了一个特定的细胞,然后触发了其他细胞。这个不断扩大的网络在大脑中构成了一个等级系统,导致了图像的身份识别——一个物体,或一张脸。这个观点,极端地说,形成了所谓的祖母细胞假说的基础——在最高层次上,可以有如此抽象的细胞,它们只有在受到概念性实体的刺激时才会被激活,比如祖母细胞。尽管这一观点仍有争议,但在2005年,加州大学洛杉矶分校的研究人员近乎证明了这一点,他们发现当研究对象看到特定的名人面孔时,比如詹妮弗·安妮斯顿或比尔·克林顿,细胞就会发光。
我询问了玛格丽特·利文斯通(Margaret Livingstone),她是大卫·休贝尔(David Hubel)的学生和长期同事,现在是哈佛大学(Harvard)的视觉神经学家。她毫不犹豫地解释说,重要的是“我们的大脑被安排在一系列有层次的区域中,每个区域对输入进行类似的计算,就像一个神经网络。”
我在20世纪50年代末,随着Hubel和Wiesel的发现,美国海军资助了一种计算机的开发,它有一个科幻电影的名字:感知机。它又大又笨重,像噩梦一样,里面有一个相机,上面有400个光电池,像老鼠窝一样连接着一层人造“神经元”,可以处理图像信息,并在训练后识别模式。尽管纽约时报吹捧它为“电子计算机的胚胎,…将能够走路,说话,看,写,复制本身,意识到它的存在,“一次使用它很快就被发现,甚至其基本模式识别能力是令人失望的是有限的类型模式训练,相对于类异常扩张的预期。
计算机视觉的成功需要从Hubel和Wiesel的发现中获得灵感。在1980年,它以Neocognitron这是日本计算机科学家福岛邦彦(Kunihiko Fukushima)发明的神经网络。与生物视觉结构平行,新认知子的基本单元叫做s细胞,它们分别模仿简单细胞和复杂细胞,馈入c细胞。它们以层叠的、分级的方式相互联系,就像大脑一样。经过训练,它可以识别打字甚至手写的字符。它是第一个可以学习从任何人绘制的独特空间模式中创建信息,并使用这些信息本质上对抽象类别做出决定,以识别有意义的、可理解的符号。
在20世纪90年代末,新认知ron之后出现了另一个受生物学启发的模型,称为HMAX,即“层次模型和X”,它在可识别物体的种类方面更加灵活。它可以从不同的角度和不同的尺寸来识别它们。领导这个项目的是Tomaso Poggio,他最初接受的是理论物理学的训练,现在被认为是麻省理工学院计算神经科学家的先驱。他,随逝者而去大卫·马尔他使用了一种受生理学启发的方法,通过计算机模拟神经过程,从而在计算机系统中创造视觉。
Poggio的HMAX还包括简单和复杂处理节点,其中简单节点馈入复杂节点。层次结构中最高处理节点的输出近似于视觉对象的神经表示——输出甚至被称为“神经元”——因此,当它们看到的图像中包含训练识别的对象时,它们的模型放电率达到峰值。在《自然》杂志1999年发表的一篇关于HMAX的文章中,Poggio和他的同事评论说,他们的模型是Hubel和Wiesel的视觉处理层次模型的扩展。
在最近的一次采访中,Poggio告诉我,Neocognitron“是第一个真正遵循这种层次结构的计算机模型”。“在我的小组中,我们做了类似的事情,这更符合Hubel和Wiesel发现的生理学。你可以把它想象成一个序列,它有多层逻辑操作,对应于简单和复杂的细胞及其组合,从而获得视觉通路上高度神经元的选择性特性。”基本上,通过HMAX, Poggio能够模拟神经元,这些神经元不仅能从简单和复杂的细胞中接收输入,还能从加工序列的其他许多细胞中接收输入。在猫和人类的大脑中,这些“高层”神经元不是被定向线激活的,而是被像3d形状这样的复杂图形激活的,无论从什么角度。为了做到这一点,这些神经元必须学习它们要识别的特征。
我们想出了一个好主意,改变了幻灯片边缘的方向。我们就是这样发现它的!
令人难以置信的是,这些模型的连接结构或架构今天可以在训练计算机视觉系统的尖端算法中看到在飞行中识别物体.最广为人知的例子就是自动驾驶。特斯拉的智能召唤功能允许车辆自动停车,并自动离开停车位。更新的型号将采用基于摄像头的神经网络技术,在自动驾驶过程中实现完全制导。
具有视觉智能的计算机目前被应用于安全、农业和医学领域,在这些领域它们被用来识别不同程度的效率,坏苹果——怀疑、杂草和肿瘤。这些突破伴随着信息处理能力的大幅提升和大量训练图像的出现,这就是所谓的深度学习(Deep Learning),一种在输入和输出之间有多层处理节点的系统架构。与简单细胞和复杂细胞相似,这些模型的各层以前馈的方式联网,就像它们在哺乳动物的大脑中一样。事实上,Poggio说,“深度学习模型的架构最初是受到Hubel和Wiesel的生物数据的启发。”
虽然深度学习的架构是受到人类大脑的启发,但它的视觉识别方法并不是完美的平行。例如,人工智能系统,学会识别物体或人往往依赖于一个名为反向传播过程,其中包括权重人工神经元之间的连接强度根据错误率,商定的方式通过神经解剖和生理上可能甚至是不可能的。Poggio说:“‘backprop’与我们对大脑如何处理视觉信息的了解并不准确。”他还形容这是一个非常笨拙、效率低下的过程。Poggio说:“在一些人工智能系统中,这需要兆瓦的电力,而我们的大脑只靠我们吃的食物提供的能量运行。”
尽管如此,他指出,科学家们正在通过更详细的计算来再现大脑的视觉处理能力,这可能会导致人工智能更好的视觉处理。与实际大脑结构直接对应的人工神经网络已经能够准确预测神经对图像的反应。在一个2019年实验根据神经科学的发现,麻省理工学院的一组科学家设计了一个计算机模型来刺激大脑视觉系统的神经活动。他们让计算机生成一幅图像,触发了所需的神经活动模式。当科学家们将合成的图像展示给猴子看时,在猴子的大脑中植入电极来记录它们的神经活动,猴子的视觉系统就像科学家们预测的那样启动了。科学家们说,这种技术刺激神经活动的潜力令人兴奋,尤其是对那些遭受脑损伤的人。这是科幻小说里的东西。
威塞尔告诉我,当他和休贝尔有了第一个发现时,他们感到了那种兴奋。“我们觉得自己更像探险家,而不是科学家,”威塞尔说。他们的探索至今仍在为科学开辟新的道路。
Phil Jaekl是一名自由科学作家,拥有认知神经科学的学术背景。他的新书是Out Cold: A Cold Descent into the Macabre, Controversial,救生的低体温史.他住在挪威的北极特罗姆瑟。
主要图片:Blue Planet Studio / Shutterstock