大语言模型有内在的世界模型吗？

大语言模型 (LLM) 具体原理是什么？人们还在探究之中：大语言模型 (LLM)不仅仅是傻傻的下一个词预测者，它们还是有自己的的内在世界观模型，这篇新论文揭示了大语言模型的内在三观模型：

此类系统是否只是学习大量表面统计数据？还是数据生成过程的连贯模型（世界模型）？

语言模型有内部世界模型吗？时间感？在多个时空尺度上？

在这篇新论文中，在 Llama-2 的激活中发现它们内在的世界模型，并提供了证据：
我们通过分析 Llama-2 系列模型中三个空间数据集（世界、美国、纽约地区）和三个时间数据集（历史人物、艺术品、新闻标题）的学习表示，找到了大语言模型有内在世界观的证据。
我们发现LLM可以学习跨多个尺度的空间和时间的线性表征（符号表征）。这些表征对于提示变化是稳健的，并且在不同实体类型（例如城市和地标）之间是统一的。

该项目的一个关键部分是构建具有多种实体类型（如城市和自然地标）的多时空尺度空间和时间数据集。

在空间表征方面，我们对全球、美国和纽约市数以万计的城市、建筑和自然地标名称运行 Llama-2 模型。然后，我们在最后的标记激活上训练线性探针，以预测每个地方的实际经纬度。

在时间表征方面，我们在过去 3000 年的名人姓名、1950 年以后的歌曲、电影和书籍名称以及 2010 年代的《纽约时报》头条新闻上运行模型，并训练 lin 探测器来预测死亡年份、上映日期和出版日期。

在对每个层和每个模型进行探测训练时，我们发现表征在早期层中逐渐出现，然后在中点左右趋于稳定。不出所料，模型越大越好，但对于较模糊的数据集（纽约市）来说，没有一个模型是好的。

这些表征实际上是线性的吗？
通过比较非线性 MLP 探针与线性探针的性能，我们发现有证据表明它们是线性的！更复杂的探针在测试集上的表现并没有更好。

这些表征对提示是否具有鲁棒性？
根据不同的提示进行探测，我们发现性能基本保持不变，但实体名称大写或预置随机标记可能会降低性能。此外，用尾部句号而不是最后一个标记来探测标题的效果更好。

但是，模型真的_使用_了这些表征吗？
通过寻找权重与探针相似的神经元，我们发现许多空间和时间神经元对实体的时空坐标很敏感，这表明模型实际上学习的是全局几何，而不是探针。

要查看所有细节和其他验证，请点击标题查阅论文。

网友评论：
1、从本质上讲，他们训练一个分类器（称为 "探针"），根据 LLM 中某些层的激活来预测坐标，即把每个选定层的输出向量作为分类器的输入。然后，他们使用测试集来评估该分类器，并计算其与正确结果的误差度量。分类器预测的所有近似正确结果的各自坐标会被绘制在地图上。

简而言之，他们的主张是通过 "反向归纳法 "证明：如果分类器最终学会了将 LLM 输出向量映射到坐标上，那么 LLM 一定也学会了相同的信息。

我认为这是胡扯，简单明了。作者没有提到的是，探针可以学习将 LLM 层输出映射到任何东西，而探针和 LLM 都不会知道这些输入的语义是什么。例如，探针可以学习预测歌曲名，而不是映射坐标。那么我们会得出结论，LLM 已经学会了音乐的内部模型吗？当然不会。我们唯一可以确定的是，LLM 图层输出与分类器中的预期预测之间存在某种映射关系。

2、我认为这是一项非常出色的研究。与 Word2vec 相比，它有一些相关的不同之处：

Word2vec 被明确设计为学习矢量空间嵌入，而 LLM 并非如此--这是一种突发现象（除了训练探针之外）。
Word2vec 表示维度要高得多，通常为 100-1000 维。
正如你可能猜到的那样，word2vec 表示法的维度并不等同于实词的时间和空间维度，优化的特性是在高维空间中低欧几里得距离表示相似性。
直接对应于空间和时间的线性、清晰分离的维度就像一个扬声器在高喊 "世界模型！世界模型！"。这意义非凡，因为世界模型所能做的远不止评估实体的相似程度。例如，它允许进行空间推理（例如，回答 "我能乘直升机从纽约飞到洛杉矶吗？"，而无需直接学习纽约和洛杉矶之间距离的答案或数字）和时间推理（例如，回答 "贝多芬是否影响了莫扎特/莫扎特是否影响了贝多芬？"）。

大多数从事人工智能的人都有一种强烈的直觉，即 LLMs 有一个世界模型，而且它们的出色表现很大一部分来自于对世界模型的使用。这篇论文就是直接证据--包括 "使用 "的部分。

世界模型为何如此重要？世界模型允许更高的信息效率和根本上可组合的推理：以贝多芬/莫扎特为例。世界模型可以将出生和死亡日期的信息拼凑在一起，并了解童年和职业生涯的持续时间，从而推断出贝多芬不太可能影响莫扎特，尽管他们的生活有重叠，甚至有可能在某一时刻见过面。结合对音乐流派、莫扎特的文化影响和艺术发展的了解，可以推断出莫扎特极有可能影响了贝多芬。所有这一切，都不需要通过死记硬背或统计得出结论。

3、更有可能的是，语言区只与大脑的一个部分--语言区--的某些方面相似，语言区通常位于（不尽相同）顶额叶区的左侧，有点像左太阳穴后面和左耳前面。它还可能与颞叶皮层有存储方面的联系，但记忆对我们来说是一件很难理解的事情。

老实说，有时把 LLM 与人脑相比，就像把马与赛车（或鸟与飞机）相比。从技术上讲，它们确实有共同之处，但尽管功能相似，工作方式却大相径庭，即使我们完全理解了它们，也很难进行比较。

不过，我想强调的是，它们在某种计算抽象层面上确实具有可比性，就像飞机和鸟类在机械功能上可以进行比较一样，所以这并非不可能，只是很难。

更重要的是，这也许并不像我们希望的那样有用。尽管我们很想把鸟和飞机进行比较，尽管我们很想让它成为一个有用的类比，但它终究不是一回事，甚至根本就不是一回事，而且信息量也不大。

人工智能是一种独特的东西，与我们所知的任何东西都不同。到目前为止，它基本上与自然界格格不入，至少到目前为止我们是这么认为的。我们在地球上创造了外星认知。

在我看来，这应该比在电脑中再现人类思维更加令人激动。我们终于发现了外星 "生命"，我们可以和它在线聊天。我们不再孤独（好吧，算是吧......这很复杂，它并不是一个真正的 "人"，但它肯定是一种特殊的东西，我们还不知道该如何称呼它，这就是为什么我觉得对我们的思维类比的痴迷如此重要，尽管它并没有那么有用）。

大语言模型有内在的世界模型吗？

三则大模型使用提示技巧

BM42：语义搜索与关键词搜索结合

LMOS：大型语言模型操作系统正在到来！

使用CP-SAT和Python实现约束编程

元规划：使用规划器解决数学问题