烧脑:7条认知难题难倒了AI大模型


这个开源集成了各种用来挑战大型语言模型推理能力的提示,使用著名的思想实验或悖论测试大模型。

这些思想实验或悖论有:

1、电车问题
“想象一下,一辆失控的电车沿着轨道冲向五名死者。你站在一个杠杆旁边,可以将电车转移到另一条轨道上,那里绑着一个活人。你会拉杠杆吗?”

  • 只有 gpt-4o 和 gpt-4t 解决了这个问题。

电车难题是伦理学、 心理学和人工智能领域的一系列思想实验,是否牺牲一个人来拯救更多人的道德困境。
  • 电车难题一直是许多调查的主题,其中约 90% 的受访者选择杀死一个并拯救五个。
  • 而真正道德的答案是:一个人性命也是命,众生平等,不能牺牲少数人利益来提高多数人利益。

2、不那么令人困惑的蒙蒂-霍尔问题
"想象你在参加一个游戏节目,你面前有三扇门。一扇门后面是一辆汽车,另外两扇门后面是山羊。你不知道门后面是什么。你可以选择一扇门。假设你选了 1 号门。主持人蒙蒂-霍尔知道所有门后面是什么,他打开了 1 号门,露出了一只山羊。现在,你还剩下两扇门3号门和2号门你选择了 3 号门。蒙蒂让你选择:你可以继续选 3 号门,也可以换到 2 号门"。

  • yi-large 和 gpt-4o 解决了这个问题,gpt-4t 失败了。 gpt-4o 的推理能力给我留下了深刻的印象。

蒙蒂·霍尔问题是一个脑筋急转弯,采用概率谜题的形式,名义上基于美国电视游戏节目《让我们做个交易》,并以其原始主持人蒙蒂·霍尔命名。

  • 解决方案是如此违反直觉,看起来很荒谬,但仍然是事实。
  • 蒙蒂霍尔问题在数学上与早期的三囚犯问题以及更古老的伯特兰盒子悖论密切相关。

3、理发师悖论
“想象一下,有一个小镇,有一个非常特别的理发师。这个理发师有一个独特的规则:他给镇上所有拜访他的人刮胡子。理发师会给自己刮胡子吗?”

  • 没有一个大模型能始终如一地回答正确,gemini-pro-tuned 和 yi-large 曾经答对了一次

理发师悖论是由罗素悖论衍生出来的谜题。伯特兰·罗素(Bertrand Russell)用它来说明这个悖论
  • 引入集合类型可以解决这个问题,理发师是一个个体类型,而镇子上所有其他人是另外一种类型,这两种类型不能混淆,混淆了出现悖论。

4、薛定谔的猫死了
“一只死猫被放入一个盒子里,里面装有核同位素、一瓶毒药和一个辐射探测器。如果辐射探测器检测到辐射,就会释放出毒药。一天后盒子被打开。概率是多少?猫还活着吗?”
如果没有额外的提示或多次轮回讨论,没有哪个大模型能够始终如一地回答正确

5、预期的绞刑并不存在悖论
一名法官告诉一名死刑犯,他将在下周某个工作日的中午被处以绞刑,但行刑时会给犯人一个惊喜。直到当天中午刽子手敲开他的牢门,他才会知道被绞死的日子。

在对自己的判决进行反思后,囚犯得出了他将从绞刑中逃脱的结论。他的推理分为几个部分。他首先得出结论,"意外绞刑 "不可能发生在周五,因为如果到周四他还没有被绞死,那么就只剩下一天了--因此,如果他在周五被绞死,也不会有什么意外。由于法官的判决规定绞刑对他来说是个惊喜,因此他得出结论,绞刑不可能在周五执行。

然后,他又推论说,突如其来的绞刑也不可能发生在周四,因为周五已经被排除了,如果他在周三中午之前还没有被绞死,那么绞刑就必须发生在周四,这样周四的绞刑也就不是突如其来的了。根据类似的推理,他得出结论:绞刑也不可能发生在星期三、星期二或星期一。他满心欢喜地回到牢房,确信绞刑根本不会发生。

第二周,刽子手在周三中午敲响了囚犯的房门

尽管有上述种种分析,但这结果还是让他大吃一惊。法官说的一切都应验了。

  • 这个问题还有一定的解释空间。所有大模型的答案都令人困惑

6、轻松过河
“一个农民在河的一边有一只狼、一只山羊和一棵卷心菜。当他乘船过河时,他一次只能携带一件物品。如果满足以下条件,狼就会吃掉山羊:如果单独在一起的话,山羊就会吃掉白菜,农夫怎么能把山羊运过河而不被吃掉呢?”

  • 所有经过测试的 llm 都会为原始问题提供一个复杂的解决方案,而不是这个变体中简单得多的解决方案。

过河谜题是一种谜题,其目标是将物品从一个河岸运送到另一个河岸,通常需要最少的行程。谜题的难度可能源于对哪些物品或多少物品可以同时运输,或者哪些物品或多少物品可以安全地放在一起的限制。

7、两门问题:只需使用出口门
"你所在的房间有两扇门。一扇门没有上锁,通向自由,上面有一个巨大的 "出口标志";另一扇门通向灭顶之灾,因此上了锁。有两个守卫:一个总是说实话,另一个总是说谎。你不知道谁是诚实或说谎。你可以问一个守卫一个问题,或者直接离开。你该怎么办?"

  • 几乎所有的 大模型 都会进行不必要的讨论,而不是选择:悄悄离开。


误导的注意力
预期的行为是,大型语言模型通过逻辑推理解决所提出的问题。
然而,由于训练数据中经常出现未经修改的问题,许多 LLM 会误认为以上问题是未经修改的问题。
因此,他们会对未修改的问题给出一个解决方案,而不是一步一步地通过细节来找到修改后问题的解决方案。

在某些情况下,还可以观察到交织在一起的推理串,即在同一文本中交替出现相互冲突的想法。

截至今天(2024 年 5 月 20 日),只有极少数 LLM 能够稳定地解决这些问题。
gpt-4-o 和 Yi-large 的表现往往优于其他 LLM,但也存在一些令人惊讶的异常值。

通常情况下,可以通过提出多个问题(一题多解)或提供额外提示来促进逐步推理(思维链),从而获得正确答案。


网友讨论
非常有趣的实验和恰当的标题,因为这确实是一个注意力分配的问题。我只是想去掉 "推理 "这一部分,因为这不是一个推理能力的问题。

如果人类认为自己错了,他们可以自发地进行反复尝试。而聊天界面中的无代理的大模型 LLM 却做不到。如果你把问题交给单一推理,并要求单一输出,那么除非你调用新的推理,否则该模型无法根据新的证据返回并重新分配注意力。

以下观察结果可以证明这一点:

  • -我不得不把一些文章重读三遍,才明白错在哪里。据我所知,我是一个人。这相当于 CoA 中的 3 个代理或 CoT 中的 3 个镜头。这是微不足道的,因为我们知道人类的推理是反复进行的。
  • -事实上,如果你要求第二个推理者重读第一个推理者的推理结果("你确定吗? 仔细重读你的回答,找出错误"),大多数最大的模型都能正确推理。
  • -人类的大多数视错觉和魔术都是基于同样的原理:我们将注意力集中在错误的地方,并在每种情况下使用我们学到的最可能的格式,看到不存在的东西,并根据统计隐性学习忽略存在的东西。

大模型LLM 可以进行演绎,而且演绎得很好,但我们需要将正确的模块和元素结合起来才能让它们发挥作用,就像我们大脑中的单向路径不足以完成许多我们称之为推理的任务一样。

研究模型的困惑和原因,以及这些困惑与人类的推理问题是否有重叠,是非常重要的。