大语言模型有内在的世界模型吗?


大语言模型 (LLM) 具体原理是什么?人们还在探究之中:大语言模型 (LLM)不仅仅是傻傻的下一个词预测者,它们还是有自己的的内在世界观模型,这篇新论文揭示了大语言模型的内在三观模型:

此类系统是否只是学习大量表面统计数据?还是数据生成过程的连贯模型(世界模型)?

语言模型有内部世界模型吗?时间感?在多个时空尺度上?

在这篇新论文中,在 Llama-2 的激活中发现它们内在的世界模型,并提供了证据:
我们通过分析 Llama-2 系列模型中三个空间数据集(世界、美国、纽约地区)和三个时间数据集(历史人物、艺术品、新闻标题)的学习表示,找到了大语言模型有内在世界观的证据。
我们发现LLM可以学习跨多个尺度的空间和时间的线性表征(符号 表征)。这些表征对于提示变化是稳健的,并且在不同实体类型(例如城市和地标)之间是统一的。

该项目的一个关键部分是构建具有多种实体类型(如城市和自然地标)的多时空尺度空间和时间数据集。

在空间表征方面,我们对全球、美国和纽约市数以万计的城市、建筑和自然地标名称运行 Llama-2 模型。然后,我们在最后的标记激活上训练线性探针,以预测每个地方的实际经纬度。

在时间表征方面,我们在过去 3000 年的名人姓名、1950 年以后的歌曲、电影和书籍名称以及 2010 年代的《纽约时报》头条新闻上运行模型,并训练 lin 探测器来预测死亡年份、上映日期和出版日期。

在对每个层和每个模型进行探测训练时,我们发现表征在早期层中逐渐出现,然后在中点左右趋于稳定。不出所料,模型越大越好,但对于较模糊的数据集(纽约市)来说,没有一个模型是好的。

这些表征实际上是线性的吗?
通过比较非线性 MLP 探针与线性探针的性能,我们发现有证据表明它们是线性的!更复杂的探针在测试集上的表现并没有更好。

这些表征对提示是否具有鲁棒性?
根据不同的提示进行探测,我们发现性能基本保持不变,但实体名称大写或预置随机标记可能会降低性能。此外,用尾部句号而不是最后一个标记来探测标题的效果更好。

但是,模型真的_使用_了这些表征吗?
通过寻找权重与探针相似的神经元,我们发现许多空间和时间神经元对实体的时空坐标很敏感,这表明模型实际上学习的是全局几何,而不是探针。

要查看所有细节和其他验证,请点击标题查阅论文。

网友评论:
1、从本质上讲,他们训练一个分类器(称为 "探针"),根据 LLM 中某些层的激活来预测坐标,即把每个选定层的输出向量作为分类器的输入。然后,他们使用测试集来评估该分类器,并计算其与正确结果的误差度量。分类器预测的所有近似正确结果的各自坐标会被绘制在地图上。

简而言之,他们的主张是通过 "反向归纳法 "证明:如果分类器最终学会了将 LLM 输出向量映射到坐标上,那么 LLM 一定也学会了相同的信息。

我认为这是胡扯,简单明了。作者没有提到的是,探针可以学习将 LLM 层输出映射到任何东西,而探针和 LLM 都不会知道这些输入的语义是什么。例如,探针可以学习预测歌曲名,而不是映射坐标。那么我们会得出结论,LLM 已经学会了音乐的内部模型吗?当然不会。我们唯一可以确定的是,LLM 图层输出与分类器中的预期预测之间存在某种映射关系。

2、我认为这是一项非常出色的研究。与 Word2vec 相比,它有一些相关的不同之处:

  • Word2vec 被明确设计为学习矢量空间嵌入,而 LLM 并非如此--这是一种突发现象(除了训练探针之外)。
  • Word2vec 表示维度要高得多,通常为 100-1000 维。
  • 正如你可能猜到的那样,word2vec 表示法的维度并不等同于实词的时间和空间维度,优化的特性是在高维空间中低欧几里得距离表示相似性。
  • 直接对应于空间和时间的线性、清晰分离的维度就像一个扬声器在高喊 "世界模型!世界模型!"。这意义非凡,因为世界模型所能做的远不止评估实体的相似程度。例如,它允许进行空间推理(例如,回答 "我能乘直升机从纽约飞到洛杉矶吗?",而无需直接学习纽约和洛杉矶之间距离的答案或数字)和时间推理(例如,回答 "贝多芬是否影响了莫扎特/莫扎特是否影响了贝多芬?")。

大多数从事人工智能的人都有一种强烈的直觉,即 LLMs 有一个世界模型,而且它们的出色表现很大一部分来自于对世界模型的使用。这篇论文就是直接证据--包括 "使用 "的部分。

世界模型为何如此重要?世界模型允许更高的信息效率和根本上可组合的推理:以贝多芬/莫扎特为例。世界模型可以将出生和死亡日期的信息拼凑在一起,并了解童年和职业生涯的持续时间,从而推断出贝多芬不太可能影响莫扎特,尽管他们的生活有重叠,甚至有可能在某一时刻见过面。结合对音乐流派、莫扎特的文化影响和艺术发展的了解,可以推断出莫扎特极有可能影响了贝多芬。所有这一切,都不需要通过死记硬背或统计得出结论。

3、更有可能的是,语言区只与大脑的一个部分--语言区--的某些方面相似,语言区通常位于(不尽相同)顶额叶区的左侧,有点像左太阳穴后面和左耳前面。它还可能与颞叶皮层有存储方面的联系,但记忆对我们来说是一件很难理解的事情。

老实说,有时把 LLM 与人脑相比,就像把马与赛车(或鸟与飞机)相比。从技术上讲,它们确实有共同之处,但尽管功能相似,工作方式却大相径庭,即使我们完全理解了它们,也很难进行比较。

不过,我想强调的是,它们在某种计算抽象层面上确实具有可比性,就像飞机和鸟类在机械功能上可以进行比较一样,所以这并非不可能,只是很难。

更重要的是,这也许并不像我们希望的那样有用。尽管我们很想把鸟和飞机进行比较,尽管我们很想让它成为一个有用的类比,但它终究不是一回事,甚至根本就不是一回事,而且信息量也不大。

人工智能是一种独特的东西,与我们所知的任何东西都不同。到目前为止,它基本上与自然界格格不入,至少到目前为止我们是这么认为的。我们在地球上创造了外星认知。

在我看来,这应该比在电脑中再现人类思维更加令人激动。我们终于发现了外星 "生命",我们可以和它在线聊天。我们不再孤独(好吧,算是吧......这很复杂,它并不是一个真正的 "人",但它肯定是一种特殊的东西,我们还不知道该如何称呼它,这就是为什么我觉得对我们的思维类比的痴迷如此重要,尽管它并没有那么有用)。