简历阅读- - -为什么机器人的大脑需要符号

接近

你已经阅读了每月两篇免费文章中的一篇。学习更多的知识。

接近

为什么机器人的大脑需要符号

我们需要深度学习和符号操作来构建人工智能。

如今,从埃隆·马斯克(Elon Musk)到亨利·基辛格(Henry Kissinger),“人工智能”这个词似乎几乎人人都在谈论。由加里·马库斯……

N如今,从埃隆·马斯克(Elon Musk)到亨利·基辛格(Henry Kissinger),“人工智能”这个词似乎几乎在每个人的嘴边。至少有十几个国家发起了重大的人工智能计划,谷歌和Facebook等公司也陷入了一场大规模的人才争夺战。自2012年以来,几乎所有的注意力都集中在一种技术上,它被称为深度学习,这是一种统计技术,使用一组简化的“神经元”来近似大型复杂数据集合中固有的动态。深度学习推动了从语音识别、计算机象棋到自动标记照片等各个方面的进步。对一些人来说,它可能看起来像“超级智能”-机器比人智能得多的情况即将出现。

事实是,他们不是。让机器识别句子中的音节和让它理解句子的意思是不一样的。像Alexa这样的系统可以理解像“打开灯”这样的简单请求,但距离进行有意义的对话还有很长的路要走。类似地,机器人可以用吸尘器清扫地板,但驱动它们的人工智能仍然很弱,而且它们离足够聪明(和足够可靠)来照看孩子还有很长的路要走。人类能做的很多事情机器还做不到。

我试着退一步,解释为什么深度学习可能不够,以及我们应该在哪里寻找将人工智能提升到下一个水平。

关于我们下一步该做什么还有很多争议。我应该知道:在过去的30年里,自从我开始在麻省理工学院(Massachusetts Institute of Technology)读研究生、跟随令人鼓舞的认知科学家史蒂文·平克(Steven Pinker)学习以来,我一直在断断续续地卷入关于人类思维本质以及构建人工智能的最佳方式的辩论。我的观点有时不太受欢迎,我认为像深度学习这样的技术(以及当时的前辈)不足以捕捉人类思维的丰富性。

这种时断时续的争论在上周出人意料地大范围爆发,导致了一场巨大的推特风暴从深度学习的创始人、Facebook现任首席人工智能科学家扬·勒昆(Yann LeCun),到谷歌人工智能部门负责人杰夫·迪恩(Jeff Dean),以及加州大学洛杉矶分校(University of California, Los Angeles)图灵奖得主朱迪亚·珀尔(Judea Pearl)。

当140个字符似乎不再足够时,我试图后退一步,解释为什么深度学习可能不够,以及我们可能应该寻找另一个想法,可能与深度学习结合,将人工智能带到下一个层次。下面是对我的个人的角度关于辩论的内容


这一切都是从我读书开始的约书亚·本吉奥访谈录作为深度学习领域的先驱之一,谷歌公司(google inc .)的谷歌(google inc .)首席执行官戴维技术评论.发明家们经常大肆宣传自己的发现,而本吉奥却对自己的发现轻描淡写,而是强调了人工智能领域可能需要解决的其他重要问题,他写道:

我认为我们需要考虑人工智能的严峻挑战,而不是满足于短期的、渐进的进步。我并不是说我想忘记深度学习。恰恰相反,我想在此基础上进一步发展。但我们需要将其扩展到推理、学习因果关系、探索世界等方面,以便学习和获取信息。

我几乎同意本吉奥的每一个字,并认为本吉奥如此公开地说出来,真是太棒了。我也似乎被什么(a)一个重要的观点的变化,或者至少框架,相对于如何深度学习的倡导者陷害事情几年前(见下文),(b)运动朝着一个方向,我一直主张,和(c)来自Bengio值得注意。

因此,我在推特上发布了采访,期待着一些转发,而不是更多。然后,几乎立刻,一场推特风暴爆发了。

以下是这条推文,可能在随后的风暴中被遗忘了:

为了记录和比较,以下是早在六年之前,也就是2012年11月25日,我就说过了可怕的:

深度学习是一项重要的工作,具有直接的实际应用价值。

...

实际上,深度学习只是构建智能机器这一更大挑战的一部分。这种技术缺乏表现因果关系的方法(比如疾病和症状之间的关系),而且很可能在获得“兄弟姐妹”或“相同”等抽象概念方面面临挑战。它们没有明显的方法来执行逻辑推理,而且在集成抽象知识(例如关于对象是什么、它们的用途以及它们通常如何使用的信息)方面,它们还有很长的路要走。最强大的人工智能系统……使用像深度学习这样的技术,只是一个非常复杂的技术集合中的一个元素,从贝叶斯推理的统计技术到演绎推理。

我支持这一点。据我所知(我可能是错的),这是第一个有人说深度学习本身不是灵丹妙药的地方。考虑到像Pinker和我这样的人对上一代前辈模型的发现,围绕深度学习的炒作似乎是不现实的。六年后,本吉奥也说了同样的话。

有些人喜欢推特,有些人不喜欢。Yann LeCun的反应非常消极。在一系列推文中,他(错误地)声称我讨厌深度学习,因为我个人不是算法开发人员,所以我没有权利批评别人;他说,如果说我最终看到了深入学习的曙光,那只是在最近几天,在我们推特讨论的空间里(也是假的)。

通过反思这场辩论中说了什么和没说什么(以及哪些内容确实被证实了,哪些内容实际上没有被证实),以及深度学习仍在苦苦挣扎的地方,我相信我们可以学到很多。


T澄清一些误解:我不讨厌深度学习,一点也不。我们在上一家公司使用了它(我是首席执行官和创始人),我希望我还会再次使用它;如果我无视它,那就太疯狂了。我认为——我这样说是为了公开记录,请随意引用我的话——深度学习是解决某些问题的极好工具,尤其是那些涉及知觉分类的问题,比如识别音节和物体,但也不是万灵药。在我的纽约大学与勒昆辩论我称赞LeCun早期在卷积方面的工作,卷积是一个非常强大的工具。自从我第一次写关于深度学习的文章以来,我一直在给予一些(但不是无限的)信任:在《纽约客》2012年,2018年1月深度学习:一篇批判性评价文章在这篇文章中,我明确表示,“我认为我们不应该放弃深度学习”,并在许多情况下介于两者之间。乐存一再公开歪曲我,说我只是刚刚意识到深度学习的作用但事实并非如此。

LeCun认为我不应该被允许发表评论的说法同样荒谬:科学需要批评者(LeCun本人对深度强化学习和神经形态计算提出了正确的批评),尽管我个人不是一名算法工程师,但我的批评到目前为止具有持久的预测价值。举个例子,我在前人身上做的深入学习实验,首次出版于1998年,直到今天仍然有效,正如最近的工作与更现代的模型,由人喜欢布兰登·莱克和马可·巴罗尼Bengio自己.当一个领域试图压制其批评者,而不是解决潜在的批评,用政治取代科学探究时,就出现了严重的问题。

但是LeCun在一件事上是对的;有某物我讨厌。我讨厌的是:深入学习是没有明显的限制和可能,所有本身一般智力,如果我们给它更多的时间和更多的数据,在2016年建议捕捉到Andrew Ng,导致大脑谷歌和百度的AI组。吴昌俊认为,人工智能(他主要指的是深度学习)会无论是“现在还是在不久的将来”,都能完成一个人“不到一秒钟”就能完成的“任何脑力任务”。

一般来说,尽管并非总是如此,但对深度学习的批评往往会被忽视或忽略人身攻击道路每当有人指出深度学习可能存在特定的限制时,总会有人像Kaggle前首席科学家、at fast创始研究员杰里米•霍华德(Jeremy Howard)那样。艾,告诉我们深度学习被过度炒作的观点本身就被过度炒作了.像LeCun这样的人工智能领域的领导者承认,人工智能肯定存在一些限制,虽然有些模糊,但他们很少指出这些限制是什么(这就是为什么本吉奥的新报告如此引人注目),除了承认其对数据的渴求之外。

另一些人喜欢利用深度学习黑盒子的不透明性来表明,这是没有已知限制的。例如,上周,机器学习的创始人之一汤姆·迪特里希(Tom Dietterich)在回答关于深度学习的范围的问题时说:

从技术上讲,迪特里希当然是正确的;目前还没有人给出关于深度学习限制的正式证明,因此也没有明确的答案。他认为深度学习还在继续发展,这也是对的。但推特(表达一个论点我听过很多次,包括Dietterich不止一次)忽略了这样的事实,我们也有很多很强的启发性的证据至少有一些限制的范围,如经验观察对推理能力的限制,表现不佳的自然语言理解,对对抗性例子的脆弱性,等等。(在本文的最后,我甚至会给出一个物体识别领域的例子,这是深度学习的强项。)

再举一个例子,考虑广泛阅读。2015篇文章本性在深入学习作者是LeCun, Bengio和Geoffrey Hinton,他们三人与深度学习的发明联系最为紧密。本文相当详细地阐述了深度学习的优势。他们说的很多都是真的,但几乎没有什么是公认的限制所以我们很容易从论文中跳出来认为深度学习是一个比实际更广泛的工具。该论文的结论进一步表明,深度学习的历史对立面——符号操纵/经典人工智能——应该被取代:“需要新的范式来取代基于规则的对大向量符号表达的操纵。”许多科学论文的传统结尾——“极限”——本质上已经缺失,由此推断出深度学习的视野是无限的。这个信息似乎是,符号操纵将很快被扔进历史的垃圾箱。

当我抱怨深度学习时,并不是因为我认为它应该被“取代”,而是因为我认为它被过度吹捧了。

强调实力而不承认局限的战略在一个国家更为明显2017本性文章这似乎意味着深度强化学习的视野同样是无限的。这篇文章认为围棋是人工智能中最难的问题之一——“我们的结果全面证明了纯[深度]强化学习方法是完全可行的,即使是在最具挑战性的领域”——而不承认其他困难的问题在性质上是不同的,可能无法用类似的方法解决。例如,大多数任务中的信息都不像Go那样完整。我将进一步讨论这个问题在其他地方

当一个领域主要或完全依赖于其最新发现的优势,而不公开承认可能存在的弱点时,这让我非常担心。

我的观点是:深度学习确实很棒,但对于认知工作来说,它并不是一个合适的工具。它是感知分类的工具,而一般智力涉及的东西要多得多。我说在2012年(和从未偏离),深度学习应该为人工智能工作流的一部分,不是整件事情:“只是一个元素在一个非常复杂的整体,“正如我所说,和“不是万能溶剂,只是众多工具中的一种”我把它今年1月。就像我们可能考虑的任何其他工具一样,深度学习是一种有特定优势,也有特定弱点的工具。没有人应该对此感到惊讶。

当我对深度学习铁路,并不是因为我认为它应该是“取代”(cf。辛顿,LeCun(和Bengio强大的语言,游戏的名字是征服以前的方法),但因为我认为(a)已经超卖(例如,Andrew Ng引用,或者整个框架DeepMind 2017本性(b)深度学习的蓬勃发展往往伴随着对符号操纵的敌意,我认为这是人工智能最终解决方案中的一个基本错误。

我认为深度学习和符号操作更有可能共存,深度学习处理知觉分类的许多方面,但符号操作在抽象知识的推理中发挥着至关重要的作用。窄人工智能与深度学习的进步通常意味着我们不再需要符号操作,我认为这是一个巨大的错误。


年代什么是符号操纵?为什么我要执着于它?这个想法可以追溯到计算机科学的早期(甚至更早,到形式逻辑的发展):符号可以代表思想,如果你操纵这些符号,你就可以对它们所代表的推论做出正确的推论。如果你知道P暗示,你可以从中推断出非q非p.如果我告诉你一记重击暗示queegle但是queegle不是真的,那么你可以推断出一记重击是不正确的。

在我的2001年出版的代数思维我认为,按照认知心理学家艾伦·纽威尔(Allen Newell)和赫伯·西蒙(Herb Simon)以及我的导师史蒂文·平克(Steven Pinker)的传统,人类的大脑(在其他工具中)整合了一套机制,以类似于分层树的方式来表示结构化的符号集。更批判性地说,我认为认知的一个重要组成部分是学习通过变量表达的抽象关系的能力年代类似于我们在代数中所做的,当我们学习方程时X = y +2,然后解x给定某个值y. 附着附着的过程y调用一个特定的值(比如5)绑定;把这个值和其他元素结合起来的过程,我称之为an活动.这本书的核心观点是,像这样的符号过程——表示抽象,用实例实例化变量,并对这些变量进行操作——是人类思维不可或缺的。我详细地展示了神经网络的支持者们经常忽视这一点,这将给他们带来危险。

无论人们如何看待大脑,实际上世界上所有的软件都是建立在符号之上的。

论证的形式是为了表明神经网络模型可分为两类:“实施型连接主义”拥有正式映射到变量操作的符号机制的机制,而“消除型连接主义”缺乏这种机制。成功捕获各种事实(主要是关于人类语言的)的模型是映射的;那些没有失败的。我还指出,规则允许我所谓的普适的自由泛化,而多层感知器需要大样本来近似普适关系,这是一个突然出现的问题本吉奥最近在语言方面的工作

还没有人知道大脑是如何实现变量之类的东西,或者如何将变量绑定到实例的值上,但强有力的证据(在书中有评论)表明,大脑可以。几乎每个人都同意,至少有些人在做数学和形式逻辑时可以这样做,大多数语言学家也同意,我们在理解语言时是这样做的。真正的问题不在于人类的大脑是否能够进行符号操作,而在于使用符号的过程的范围有多广。

这本书的第二个目标是表明,在原则上使用神经元作为元素来构建符号操作的原语是可能的。我研究了一些旧的想法,比如通过时间振荡进行动态绑定,并个人支持一种插槽和填充器的方法,这种方法涉及带有代码的节点类单元库,类似于ASCII代码。内存网络和可微程序设计一直在做一些类似的事情,使用更现代的(嵌入)代码,但遵循类似的原则,采用类似微处理器的操作进行符号操作。我谨慎乐观地认为,这种方法可能在推理和语言等方面工作得更好,一旦我们有了一个足够可靠的、机器可解释的、概率性但抽象的常识数据库。


W不管你怎么想大脑,实际上世界上所有的软件都是建立在符号上的。例如,每一行计算机代码实际上都是对变量的一组操作的描述:如果X大于Y,做P,否则做;连接一个B一起形成新的东西;等等神经网络可以(取决于它们的结构,以及是否有任何东西精确地映射到变量上的操作)提供一种真正不同的范式,并且显然对于语音识别这样的任务非常有用,因为没有人会再使用一组规则,这是有充分理由的。但没有人会通过对输入集(用户击键日志)和输出集(屏幕上的图像或数据包下载)的监督学习来构建浏览器。我从乐坤那里了解到,Facebook的很多人工智能都是由神经网络完成的,但Facebook的整个框架在运行时肯定不会不借助符号操纵。

尽管在语音识别符号可能没有家了,显然做不到完整的堆栈的认知和感知自己,有很多问题,你可能会认为他们是有用的,尽管没有人的问题,要么在symbol-manipulation-based世界经典的人工智能或在深度学习的世界里,已经有了答案。这些问题包括抽象推理和语言,毕竟,形式逻辑和符号推理工具就是为这些领域而发明的。对于任何认真致力于理解(比如,常识推理)的人来说,这似乎是显而易见的。

是的,部分原因可以追溯到人工智能早期的历史原因,深度学习的创始人往往对在他们的模型中包含此类机器抱有强烈敌意。例如,欣顿2015年在斯坦福大学做了一个名为“Aetherial symbols”的演讲在书中,他试图辩称,用形式符号进行推理的想法“就像认为光波只能通过在发光的以太中引起干扰来在空间中传播一样,是不正确的”。

据我所知,辛顿并没有对此进行论证(当时我正坐在房间里)。相反,他(在我看来)似乎是在建议如何将分层符号集合映射到向量上。这将不会使符号“以太”——它将使它们成为非常真实的因果元素,并有一个非常具体的实现,这是对辛顿似乎主张的一个反驳。(当我问辛顿时,他拒绝澄清。)从科学的角度来看(而不是政治的角度),这个问题不是我们所谓的终极人工智能系统。问题是:它是如何工作的?它是否包括作为符号操作装置实现的原语(就像现代计算机所做的那样),还是基于完全不同的原则工作?我的最佳猜测是,答案将是两者兼而有之:任何一般智能系统的某些部分(但不是所有部分)将完美地映射到符号操作的原语上,而其他部分则不会。


T这实际上是一个相当温和的观点,对双方都有好处。然而,我们现在所处的情况是,机器学习领域的巨大优势并不想明确包括符号表达式(比如“狗有鼻子,它们用来嗅东西”)或变量操作(比如测试观察结果是否正确的算法)P,R它们的附带条件在逻辑上是一致的)。

更多的研究人员更习惯于带菌者,并且每天都在利用这些带菌者方面取得进展;对于大多数研究人员来说,符号表达式和运算不是工具包的一部分。但在某种程度上,他们使用这些工具所取得的进步是可以预测的:学习感知输入的一系列标签的训练时间越来越长,分类任务的准确性也在提高。同样不可预测的是进步较少的领域:在推理和语言理解等领域——这正是本吉奥和我试图引起注意的领域——即使投入数十亿美元的投资,深度学习本身也没有让这项工作失败。

从直觉上看,这些领域似乎是围绕着将复杂的想法整合在一起,而经典AI的工具似乎非常适合这些事情。为什么继续把他们排除在外呢?原则上,符号也提供了一种整合世界上所有文本知识的方式,从维基百科到教科书;深度学习既没有像“狗有鼻子”那样将基本事实综合起来的明显方法,也没有将这些知识积累成更复杂的推论的方法。如果我们的梦想是制造能通过阅读维基百科学习的机器,我们应该考虑从一个与其中包含的知识兼容的基础开始。

在上个月的推特讨论中,我个人提出的关于深度学习的最重要问题最终是:它能解决一般智力问题吗?还是只解决涉及知觉分类的问题?或者介于两者之间的问题?还需要什么?

符号本身无法解决问题,而深度学习也无法解决问题。早就应该把它们结合起来,为新型混合动力车服务了。


J在我完成这篇文章的初稿后,马克斯·利特尔把我的注意力吸引到一篇发人深省的新论文作者Michael Alcorn、Anh Nguyen等人强调了过度依赖深度学习和大数据的固有风险。特别是,他们表明,当常见刺激在三维空间中旋转到不同寻常的位置时,标准的深度学习网往往会崩溃,比如上图的右上角,一辆校车被误认为是扫雪机:

在一个健康的领域,当一种系统性的、令人惊讶的、具有启发性的错误被发现时,一切都会停止。灵魂会被搜身;手会扭来扭去。误认一辆翻了的校车不仅是个错误,而且是个发人深省的错误这表明,深度学习系统不仅会感到困惑,而且在做出所有哲学家都知道的基本区分方面,它们面临着挑战:仅仅是偶然联想的特征(当有扫雪机时,雪经常出现,但不是必要的)和类别本身固有属性的特征(在其他条件相同的情况下,扫雪机应该有扫雪机,除非,例如,它们已经被拆除了)之间的区别。我们已经看到了类似的例子,比如阿塔耶(Anish Athalye)精心设计、3d打印、泡沫覆盖的棒球,却被误认为是浓缩咖啡

奥尔康的研究结果——其中一些来自自然界的真实照片——本应将这种异常现象的担忧推到最前面。

不过,最初的反应并不是束手无策,而是更不屑一顾,比如LeCun在推特上写道可疑地把这种不规范的姿势比作毕加索的绘画读者可以自己判断,但应该注意的是,右边那一栏显示的是所有的自然图像,既不是绘画的,也不是渲染的。它们不是想象的产物,而是必须面对的真正限制的反映。

在我看来,深度学习已经到了清算的时刻。当一些最杰出的领导人站出来否认时,就有问题了。

这让我想起了那篇论文和奥尔康的结论,这些结论实际上似乎完全正确,整个领域都应该注意到:“最先进的DNNs[深度神经网络]可以很好地进行图像分类,但离真正的物体识别还差得很远。”正如他们所说,“dnn对‘校车’和‘消防车’这样的物体的理解是相当幼稚的”——这与我20年前关于语言的神经网络模型的说法非常相似,当时我认为简单递归网络获得的概念太肤浅了。

驱动奥尔康的技术问题et al。的新结果?

作为Alcornet al。言:

深度神经网络可能无法推广到非分布输入,包括自然的、非对抗性的输入,这在现实世界中很常见。

有趣的是他们居然提到了这个。的早在1998年,我就开始使用符号操作了,即反向传播(然后在层次更少的模型中使用,因此是深度学习的前兆)很难在训练示例空间之外进行推广。

这个问题并没有消失。

物体识别本应是深度学习的强项。如果深度学习不能识别非规范姿态的物体,我们为什么要期望它进行复杂的日常推理,而它从未表现出任何能力来完成这项任务呢?

事实上,这值得重新考虑我1998年的结论在一些长度。当时我的部分结论是(摘自结论性摘要论点):

●人类可以将广泛的共性归纳为任意的新奇事例。它们似乎在语言(包括语法、形态和话语)和思想(包括及物推理、蕴涵和类包含关系)的许多领域都是这样做的。

●符号操作的倡导者认为,大脑实例化了符号操作机制,包括符号、类别和变量,以及将实例分配到类别、代表和扩展变量之间的关系的机制。这种解释为理解普遍性如何扩展到任意的新实例提供了一个直接的框架。

●目前的消去连接模型使用反向传播算法(或其变体之一)将输入向量映射到输出向量。

●为了将共性推广到任意的新实例,这些模型需要在训练空间之外进行推广。

●这些模型不能推广到训练空间之外。

●因此,目前的消除性连接主义模型不能解释那些包含普遍现象的认知现象,这些普遍现象可以自由扩展到任意情况。

理查德·埃文斯和爱德华·格雷芬斯特的DeepMind最近的一篇论文,建立在乔尔·格鲁斯的基础上关于《Fizz-Buzz》的博客文章,得出的结论是,一个规范的多层网络无法独自解决简单的游戏,“因为它没有捕捉到理解这项任务所需的一般的、普遍量化的规则”——这正是我在1998年所说的。

他们的解决方案?这是一种混合模式,它的表现远远超过了纯深网的表现,合并这两个反向传播(连续版本)符号操作的原语,包括显式变量和对变量的操作。这很能说明问题。这也是我们应该关注的地方:梯度下降加上符号,而不是单独的梯度下降。如果我们不想把扫雪机和校车搞混,我们可能最终需要看向同一个方向,因为根本的问题是一样的:在几乎思维的每个方面,甚至是视觉,我们偶尔会面对训练领域之外的刺激;当这种情况发生时,深度学习就会变得不稳定,我们需要其他工具来帮助。

我说的只是给予Ps(和一个机会。


Gary Marcus是这家机器学习公司的CEO和创始人吗几何的情报(被优步收购),是纽约大学心理学和神经科学教授,也是纽约大学的自由职业者《纽约客》纽约时报

加入讨论