大模型缺乏基本推理能力?


本文探讨了大模型的戏剧性崩溃:面对一个简单的常识问题,称为“爱丽丝梦游仙境(AIW)的问题”,最先进的大模型推理能力面临崩溃。

尽管这些大模型在标准化推理基准上表现出色。关键是,目前这些LLM缺乏基本的推理能力,而现有的基准无法正确检测这些缺陷。

问题:爱丽丝梦游仙境AIW:

  • 这个简单的任务在最先进的大型语言模型中显示完全的推理故障

 AIW问题是一个简洁的自然语言任务,它问:
“爱丽丝有N个兄弟,她也有M个姐妹篇。爱丽丝的哥哥有几个姐妹篇?“

  • 虽然人类使用常识推理很容易解决(正确答案是M+1),
  • 但大多数经过测试的LLM,包括GPT-3.5/4、Claude、Gemini、LLaMA、Mistral等,表现出严重的性能崩溃,经常提供荒谬的答案和推理。


值得注意的是,即使LLM偶尔提供正确的答案,他们也经常对错误的解决方案表现出强烈的过度自信,并产生虚构(有说服力但毫无意义的解释)来证明他们的错误回答。标准的干预措施,如加强提示或要求模型重新评估他们的答案,无法提高性能。

本论文作者引入了一个更难的变体AIW+,它在所有测试模型中导致了更强的性能崩溃,包括GPT-4和Claude 3 Opus,它们在原始AIW问题上表现得相对更好。

 这项研究强调了LLM在标准化推理基准(例如,MMLU,ARC,Hellaswag)以及它们在AIW问题上的糟糕表现,表明当前的基准并不能充分反映模型的真实推理能力和弱点。

 作者强调,ML社区需要开发新的推理基准,以正确检测此类缺陷并指导LLM推理技能的改进。他们还强调了完全开放和可复制的训练管道的重要性,包括数据集组成,以实现该领域的适当分析和进展。

网友:
1、有趣的是,当我把M和N换成特定的数字时,它就很正确。

2、问题不在于推理,而在于缺少或缺乏这样措辞的问题的训练数据。人类通常不会这样说话。

3、用gpt-4 o试了3次。全都正确

4、提示将AIW逻辑问题定义为知识库,然后制定查询。从直接prolog查询的答案是2。
在新一轮的Prolog查询之后,GPT-4能够推断出Alice的一个兄弟有多少个姐妹篇

5、推理能力和常识不应该与存储和近似检索许多事实的能力混淆。

6、如果更多的人理解大型语言模型(LLM)不能推理,那么许多关于AGI和机器人接管世界的担忧就会减少,从而对AI的角色有一个更冷静的看法。

7、智能需要学习,而学习就是统计(某种意义上)。

8、LLM是Web内容的随机语义数据库,而不是推理引擎本身。

9、区分了解事实和真正理解事实是很重要的

10、如果我提示它先推理然后回答,它似乎就正确了。