大模型缺乏基本推理能力？

本文探讨了大模型的戏剧性崩溃：面对一个简单的常识问题，称为“爱丽丝梦游仙境（AIW）的问题”，最先进的大模型推理能力面临崩溃。

尽管这些大模型在标准化推理基准上表现出色。关键是，目前这些LLM缺乏基本的推理能力，而现有的基准无法正确检测这些缺陷。

问题：爱丽丝梦游仙境AIW：

AIW问题是一个简洁的自然语言任务，它问：
“爱丽丝有N个兄弟，她也有M个姐妹篇。爱丽丝的哥哥有几个姐妹篇？“

值得注意的是，即使LLM偶尔提供正确的答案，他们也经常对错误的解决方案表现出强烈的过度自信，并产生虚构（有说服力但毫无意义的解释）来证明他们的错误回答。标准的干预措施，如加强提示或要求模型重新评估他们的答案，无法提高性能。

本论文作者引入了一个更难的变体AIW+，它在所有测试模型中导致了更强的性能崩溃，包括GPT-4和Claude 3 Opus，它们在原始AIW问题上表现得相对更好。

这项研究强调了LLM在标准化推理基准（例如，MMLU，ARC，Hellaswag）以及它们在AIW问题上的糟糕表现，表明当前的基准并不能充分反映模型的真实推理能力和弱点。

作者强调，ML社区需要开发新的推理基准，以正确检测此类缺陷并指导LLM推理技能的改进。他们还强调了完全开放和可复制的训练管道的重要性，包括数据集组成，以实现该领域的适当分析和进展。

网友：
1、有趣的是，当我把M和N换成特定的数字时，它就很正确。

2、问题不在于推理，而在于缺少或缺乏这样措辞的问题的训练数据。人类通常不会这样说话。

3、用gpt-4 o试了3次。全都正确

4、提示将AIW逻辑问题定义为知识库，然后制定查询。从直接prolog查询的答案是2。
在新一轮的Prolog查询之后，GPT-4能够推断出Alice的一个兄弟有多少个姐妹篇

5、推理能力和常识不应该与存储和近似检索许多事实的能力混淆。

6、如果更多的人理解大型语言模型（LLM）不能推理，那么许多关于AGI和机器人接管世界的担忧就会减少，从而对AI的角色有一个更冷静的看法。

7、智能需要学习，而学习就是统计（某种意义上）。

8、LLM是Web内容的随机语义数据库，而不是推理引擎本身。

9、区分了解事实和真正理解事实是很重要的

10、如果我提示它先推理然后回答，它似乎就正确了。