大模型内部有一个平面和直边构成的几何对象

论文《大型语言模型中的分类和层次概念的几何形状》研究了如何在大型语言模型 (LLM) 的嵌入空间中表示分类和层次概念。

这篇论文由Kiho Park、Yo Joong Choe、Yibo Jiang和Victor Veitch共同撰写，他们来自芝加哥大学的统计系、数据科学研究所和计算机科学系。

两个基本问题：

他们展示了如何扩展线性表示假设来解答这些问题，并发现了一个非常简单的几何结构：

论文的主要贡献包括：

论文还提供了一些初步的背景知识，包括大型语言模型的组成部分、概念的形式化定义、因果内积和线性表示等。接着，作者详细讨论了二元概念和层级结构、复杂概念的表示，以及如何将二元特征表示为向量，以及如何使用这些向量表示来构建复杂概念的表示。

最后，论文通过实验验证了理论结果，并讨论了相关工作和未来的研究方向。作者指出，这些结果为理解语言模型中表示空间的结构提供了基础，并为未来的研究提供了新的方向，例如改进对LLM结构的解释，以明确考虑层级语义，以及如何理解内部层的几何结构。

论文的代码已在GitHub上公开，地址为github.com/KihoPark/LLM_Categorical_Hierarchical_Representations。