未来我们会给大模型嘴巴贴上封条吗?


本文来自《大语言模型和逆向图灵测试 - mit》一文,详细点击标题。

人类常常低估其他动物的智力,因为它们无法与我们交谈。

专家们对LLM大模型智力的分歧意见表明,我们基于自然智力的旧观念已经过时。
大模型可以帮助我们超越从 19 世纪心理学家那里继承下来的旧思维和旧概念。我们需要对智能、理解、道德甚至人工等词进行更深入的理解。

人类智能不仅仅是语言,我们可能会与大模型共享智能的某些方面,但不会共享其他方面。

语言赋予了人类独特的能力,但文字很“虚”,这是他们力量的一部分,需要更坚实的基础来构建新的概念框架。
(banq注:为何文字需要更坚实的基础?如果都有依据?人类就失去想象,只有宗教信仰了。坚实基础不只是数学形式逻辑,也有计算逻辑形式,为何不承认计算逻辑形式呢?因为它没有在物理实践中应用,但是理论物理界自从相对论和量子力学后百年无进展)

 17 世纪,“力”、“质量”和“能量”的概念在数学上被形式化,并从模糊的术语转变为现代物理学赖以存在的精确可测量的量。

当我们研究大模型时,我们可能会发现关于智能本质的新原理,就像物理学家在 20 世纪发现关于物理世界的新原理一样。量子力学被发现时非常违反直觉,而当智能的基本原理被发现时,它们可能同样违反直觉。

对 LLM大模型 如何说话的数学理解将是新智能理论的良好起点。

LLM 是数学函数,是通过学习算法训练的非常复杂的函数。但在训练结束时,它们只不过是严格指定的函数:我们现在知道,一旦它们足够大,这些功能就会有复杂的行为,其中一些类似于大脑的行为方式。

几个世纪以来,数学家一直在分析函数。在 19 世纪,约瑟夫·傅里叶 (Joseph Fourier, 1808) 发表了使用一系列正弦和余弦(现在称为傅里叶级数)对热方程的分析。
这是一类新的函数,在下个世纪导致泛函分析,一个新的数学分支,极大地扩展了我们对函数空间的理解。

神经网络模型是一类新的函数,存在于非常高维的空间中,探索它们的动态可能会导致新的数学。
一个新的数学框架可以帮助我们更好地理解我们的内部生活是如何从大脑中产生的(Sejnowski,2018 年)。
我们对空间几何的直觉受到我们生活的世界的影响并限制了我们的想象力,就像居住在平地上的二维生物努力想象三维空间一样 (Abbott, 1884 )

大脑真正擅长的是从独特的经验中学习和概括。
1980 年代多层网络学习的突破向我们表明,具有大量参数的网络也可以很好地泛化,比统计数据样本复杂性定理预期的要好得多
关于低维空间中学习的统计特性和动态的假设不适用于高度过度参数化的空间(现在多达数千亿个参数)
在分析深度前馈网络方面已经取得了进展(Bartlett 等人,2019 年),但我们需要将这些数学结果扩展到具有更复杂行为的高维动力系统。

大自然是否将大型 LLM 整合到已经高度进化的灵长类动物大脑中?
通过研究 LLMs不可思议的语言能力,我们可能会发现语言智力的一般原则,这些原则可能会推广到智力的其他方面。
LLM大模型进化速度比生物进化快得多。一旦建立了新技术,进步就会继续提高性能。这项技术的不同之处在于,在此过程中,我们可能会发现对自己的洞察力。

对于 20 世纪的人工智能,符号处理是镇上唯一的游戏,从某种意义上说,对许多人来说,它是唯一可能解释我们用抽象进行交谈和思考的能力的概念框架(乔姆斯基,1986 年
单词是由字母组成的符号,字母也是符号。它一直是符号,同样,一直到最高认知水平。
符号没有内部结构,但受外部逻辑规则的支配,这些规则决定了如何组合符号和得出推论。

符号描述紧凑地捕捉了我们思考方式的某些方面,但为什么它们不能很好地为我们提供构建思维机器的计算基础?
随着计算机程序复杂性的膨胀,进展缓慢得令人痛苦,但随着越来越大的数据集可用,许多领域的进展开始加速,包括语言。

为什么符号处理在早期 AI 中是一条如此有吸引力的道路。数字计算机在表示符号和执行逻辑方面特别有效,而语言是符号处理的典型代表。但是,即使是为语言编写逻辑程序也被证明是劳动密集型的,并且遭受了维数灾难——程序员必须预见到世界上可能发生的事物和情况的可能组合数量的爆炸式增长。

20 世纪 80 年代的语言学被符号和规则所支配。音韵学书籍包含数百条关于如何用不同单词发音字母的规则,每条规则都有数百个例外情况,而且通常还有类似例外情况的子规则。
一直都是规则和例外。
令我们惊讶的是,只有几百个单元的NETtalk竟然能够在同一个统一的架构下同时掌握英语发音的规律和异常。这告诉我们网络是比符号和逻辑规则更紧凑的英语发音表示,并且可以学习字母到声音的映射。
随着网络规模的扩大,语言生成的重要方面的出现,例如 LLM 学习中句法的出现,让我们相信我们走在正确的轨道上。

单词具有可以被视为生态系统的语义朋友、关联和关系。你知道一个词的意思是通过它所代表的公司以及它们相遇的地方。(上下文语境)
在符号表示中,所有成对的词都同样相似,这剥夺了词的语义。

在 LLM 中,单词由已经具有丰富语义信息的大向量中的预训练嵌入表示(Morin & Bengio,2005). 
一旦文字脱离了象征性的蛹,它们就会像蝴蝶一样展示出一系列令人眼花缭乱的标记和联想,以帮助大脑理解它们的含义。而这些意义是可以学习的。


与上一代用于语言模型的前馈和循环神经网络相比,大模型使用的Transformer 具有多项优势:

  • 首先,Transformer 的输入是整个句子,而不是一次输入一个单词。这使得连接被许多其他单词分隔的单词变得更容易。
  • 其次,Transformer 引入了一种新形式的自注意力,通过根据词对的相关程度乘法增强句子中的词对来修改输入表示。
  • 第三,转换器有一个外环,可以将输出反馈给输入,一次一个单词,从而产生一系列单词。训练 LLM 所需的数据量仅随权重数量线性增加,远低于经典估计的预期。
  • 最后,transformer 是前馈模型,可以在高度并行的硬件上高效实现。LLM 的容量和能力随着规模的扩大而大大增加,走的是与自然界相同的道路,即进化出更大更好的大脑(Allman,1999 年;Hoffmann 等人,2022 年)。

Transformer 的外环让人联想到大脑皮层和基底神经节之间的环路,已知这对于学习和生成运动皮层环路中的运动动作序列和思维序列常重要前额叶皮层环路 (Graybiel, 1997). 
基底神经节还负责将经常练习的序列自动化,释放参与有意识控制的皮质层以执行其他任务。
当自动系统因遇到不寻常或罕见的情况而发生故障时,大脑皮层可以进行干预。
基底神经节参与循环的另一个好处是,来自多个皮层区域的输入的汇聚为决定下一步行动或想法提供了更广泛的上下文。

Transformer 中强大的多头注意机制可以在基底神经节中实现。在循环架构中,循环中的任何区域都有助于做出决定。作为强化学习的参与者,基底神经节还考虑了下一个动作的学习价值,将动作和言语偏向于实现未来的奖励和目标。


今天的 LLM 处于莱特兄弟阶段,他们还有很长的改进之路。

向自然学习
哺乳动物的感觉运动系统进化了 2 亿多年,脊椎动物的大脑已经存在了 5 亿多年。语言是在最近几十万年内进化的。这段时间不足以进化出全新的大脑结构,但灵长类动物皮层的现有区域本可以扩展并重新用于语音产生和语音识别,而无需进行实质性的结构改变。

此外,由于社会互动的复杂性,增强的记忆能力和更快的学习速度是使语言成为可能的进一步计算资源。
随着灵长类动物进化过程中皮质的扩张,更多的皮质区域形成,层次结构加深 (Allman, 1999). 
在大脑发育过程中,有丝分裂时间再增加一倍,皮层神经元的数量就会增加一倍,从而达到新能力的阈值并增强认知功能。

进化创造了归纳偏差:预先学习的架构和预先学习的学习算法,这种算法被选择用于生存。

然而,进化所采用的路径并不遵循人类用来设计设备的逻辑 (Brenner, 1996 )。
在生命的最初几年,婴儿的大脑在语言出现的同时经历了大量的突触形成(Lister 等人,2013 年)。婴儿与一个丰富的多感官世界互动并了解这个世界,这个世界让他们的大脑充满了感觉运动经验和因果关系的证据以及口头表达(Gopnik 等人,1999 年
仅基于抽象的传统人工智能缺少这种基础。LLM 表明,可以通过从原始文本中发现的各种不完美线索(包括句法标记、词序和语义)中学习来生成语法语言。

丰富的感觉运动基础伴随着大脑的快速发育。
或许可以解释为什么在家中正常接触语言可以提取句法。语言学家得出结论,这种“缺乏刺激”证明句法是天生的(Chomsky,1971 年)。
但这忽略了大脑在发育过程中的构造方式(Quartz & Sejnowski,1995 年)。

天生的应该是进化的大脑结构和学习算法,它们提取和概括世界上的物理和社会结构。

大自然将归纳偏差降低到分子水平以最大限度地提高能源效率,如果我们想减少 LLM 快速增长的能源预算,我们也必须走这条路 (Sejnowski & Delbruck, 2012 )

语言和思想背后的大脑机制是一起进化的。皮质和基底神经节之间用于生成动作序列的循环被重新用于生成单词序列。
人类前额叶皮层的巨大扩张允许通过基底神经节的类似回路产生一系列思想(Graybiel,1997)。
同样重要的是对声道进行修改以允许在宽频谱上进行快速调制(Nishimura 等人,2022 年)。口腔和喉部的快速发音序列是大脑能够产生的最快的运动程序(Simonyan & Horwitz,2011). 
这些结构是脊椎动物的古老部分,它们通过进化得到完善和精心设计,使语言成为可能。
隐喻性的“语言器官”,假设用来解释语言的奥秘 (Anderson & Lightfoot, 2002 ),通过修改先前存在的执行器和神经系统而进化。

LLMs 被训练来预测句子中缺失的单词。为什么这是一个如此有效的策略?
大脑中的感觉运动系统也会做出预测。小脑是一种与大脑皮层相互作用的重要大脑结构,可预测运动命令的预期感觉和认知结果(Sokolov 等人,2017 年)). 
强化学习中的时间差异学习也基于预测,在这种情况下预测未来的回报。大脑中的感觉运动系统也会做出预测。
这三个例子的共同点是自监督学习数据丰富,监督薄弱。

智能是使用自我监督学习通过不断做出许多小预测来引导越来越复杂的内部模型的结果吗?
这可能就是婴儿的大脑如何在积极与世界互动的同时通过做出预测和观察结果来快速了解世界的因果结构(Ullman 等人,2017 年
已经朝着这个方向采取了步骤,并且在使用深度学习从视频中学习直观物理学方面已经取得了进展(Piloto 等人,2022 年)。

20 世纪的大脑发现启发了新的机器学习算法:

  • 视觉皮层区域的层次结构启发了卷积神经网络(LeCun 等人,1998 年,2015 年),
  • 操作性条件反射启发了用于强化学习的时间差分学习算法Sutton1988 年)。
  • 随着人工神经网络的进步,BRAIN 计划通过创新的神经技术加速了本世纪神经科学的发现(Ngai,2022 年)). 

由这些发现产生的大脑功能的新概念框架将导致更先进的神经网络模型。机器学习正被用于分析来自数十个大脑区域的数十万个神经元的同时记录,并通过连续切片电子显微镜自动重建神经回路。这些进步改变了我们对跨皮质分布式处理的思考方式。

人工智能和神经科学之间的融合正在加速。
AI 和神经科学之间的对话是一个良性循环,丰富了这两个领域(Hassabis 等人,2017 年;Sejnowski,2020 年;Richards 等人,2022 年)。

更好的理论将通过分析超高维空间中隐藏单元的活动模式而出现,这就是我们研究大脑活动的方式。

分析 LLM 中潜在状态的几何动力学应该是可能的,这可能会通过揭示其潜在的数学结构使我们更好地理解智能。人工智能和神经科学正在通过开发新的概念框架来更广泛地相互影响,这些概念框架正在取代从前几代人那里继承下来的框架。

现在我们能够询问整个大脑的神经元,我们或许能够解开其最大的谜团之一:
全球分布在如此多的神经元上的信息如何整合到统一的感知中并汇集在一起​​做出决定(Dehaene & Naccache,2001
大脑的结构是分层的,每一层负责在感觉和运动系统的不同时间尺度上做出决策(Wang,2022;Nakahira 等人,2021;Li,2022b)。当我们构建超大规模网络 (VLSN) 架构时,许多组件网络也需要集成到一个统一的系统中。这可能揭示了负责潜意识决策和意识控制的机制。

在系统神经科学中,传统上神经元在离散任务的上下文中被询问,例如对视觉刺激的选择反应,其中强制选择和刺激的数量有限。对刺激和反应的严格控制允许对记录进行解释。但神经元可以以多种不同方式参与多项任务,因此从单一任务得出的解释可能会产生误导。

我们现在有能力记录全脑数十万个神经元,并且可以通过机器学习解码行为,但神经科学家仍在使用相同的旧的基于单一任务的范例。

一种解决方案是针对许多不同的任务进行训练,但训练一只猴子完成每项任务需要数周到数月的时间。另一种解决方案是在更长的时间间隔内扩展任务的复杂性(Gao 等人,2017 年)。

通过研究离散任务来接近行为还有一个更基本的问题。
现实世界中动物的自然行为大多是自我生成和互动的。社交行为尤其如此。研究这种自我产生的连续行为比研究严格约束的反身行为要困难得多。

如果 LLM 接受了自然行为期间大量大脑记录以及伴随的眼动追踪、视频、声音和其他模式的训练,会怎样?
LLM 是自我监督的,可以通过预测跨数据流的缺失数据段来进行训练。从传统的实验角度来看,这在科学上没有用,但从 LLM 提供的新计算角度来看,它确实有意义。

通过将在自然条件下工作的大脑下载到 LLM 中,大型神经基础模型 (LNM) 可以针对任务进行快速微调,并作为替代大脑进行审问,就像预训练的 LLM 可以针对许多任务进行微调一样。这将彻底改变大脑的研究方式并增进我们的理解,同时减少研究所需的动物数量。人脑活动可以类似地下载到先进的 LNM 中。

结论
有一天,也许是一百年后,人类将早已忘记曾经有一段时间,他们是唯一使用语言的生物,因为到那时,所有机器都将配备适当的智能水平,并能够与他人交流语言。

生活在一个有这种生物的世界里会是什么感觉?谁知道他们会互相说什么?(banq:给它们嘴巴贴上封条)

详细点击标题