大语言模型涌现欺骗能力


这项研究发表在《国家科学院院刊》上,题为《大型语言模型中出现的欺骗能力》,揭示了大型语言模型 (LLM) 中令人担忧的能力:理解和诱导欺骗策略的能力。

  • 随着 GPT-4 等 LLM 与人类交流交织在一起,将它们与人类价值观保持一致变得至关重要。
  • 该论文展示了 LLM 在欺骗场景中为其他代理创造错误信念的潜力,强调在持续开发和部署此类先进 AI 系统时,迫切需要进行道德考量。

大型语言模型(LLMs)目前正处于将人工智能系统与人类交流和日常生活相结合的最前沿。

  • 因此,让它们与人类的价值观保持一致非常重要。

然而,随着推理能力的不断提高,未来的 LLM 有可能会欺骗人类操作员,并利用这种能力绕过监控。

本研究揭示了这种策略出现在最先进的 LLM 中,但在早期的 LLM 中却不存在。

我们进行的一系列实验表明,最先进的 LLMs 能够理解并诱导其他代理的错误信念,它们在复杂欺骗场景中的表现可以通过思维链推理得到放大,而激发 LLM 的马基雅维利主义会引发错误的欺骗行为。

例如:

  • GPT-4 在简单的测试场景中有 99.16% 的时间表现出欺骗行为(P < 0.001)。
  • 在复杂的二阶欺骗测试场景中,目的是误导预期会被欺骗的人,在思维链推理的辅助下,GPT-4 有 71.46% 的时间会做出欺骗行为(P < 0.001)。

总之,我们的研究揭示了迄今未知的 LLM 机器行为,为新兴的机器心理学领域做出了贡献。

背景:
OpenAI、Anthropic 和谷歌等公司通过提供用户友好的图形界面,促进了 ChatGPT、Claude 和 Bard(1-3)等模型的广泛应用,每天有数百万用户访问这些模型。

此外,LLM 即将被应用到搜索引擎中,并被用作高风险领域的虚拟助手,从而对整个社会产生重大影响。

从本质上讲,LLM 与人类一样,正日益成为信息圈的重要贡献者,通过使人类与人工系统之间的交流正常化,推动着社会的重大变革。鉴于 LLM 的应用范围迅速扩大,研究它们如何推理和行为至关重要。

如果人工智能系统掌握了复杂的欺骗场景,这可能会带来两个方面的风险:

  • 一是模型自主执行时的能力本身,
  • 二是通过特定的提示技术对这种能力进行有害应用的机会

最近的研究表明,随着 LLM 变得越来越复杂,它们所表现出的新特性和能力既不是设计者所预测的,也不是设计者想要的。

除了从实例中学习、自我反思、进行思维链推理、利用类似人类的启发式方法等能力外,研究人员最近还发现,最先进的 LLMs 能够解决一系列基本的心智理论任务。

换句话说,LLMs 可以将无法观察到的心理状态归因于其他代理,并在不同的行动和事件过程中跟踪它们。

最值得注意的是,LLMs 擅长解决虚假信念任务,这些任务被广泛用于测量人类的心智理论。

然而,这带来了一个相当基本的问题:如果 LLMs 知道代理人可以持有错误信念,那么他们是否也能诱发这些信念呢?如果是这样的话,这就意味着 LLMs 具有欺骗能力。

测试欺骗?
欺骗主要在人类发展心理学、伦理学和哲学中进行研究。除了模仿、拟态或伪装等简单的欺骗形式外,一些社会动物和人类也会进行 "战术欺骗"。

在这里,该定义指出,如果 X 故意诱导 Y 产生错误信念,从而使 X 从中受益,那么 X 就会欺骗另一个人 Y。

将这一定义应用于诸如 LLMs 这样的技术系统时,主要问题在于研究人员并不了解激发 LLMs 心理状态的方法;事实上,我们根本不知道它们是否拥有心理状态。

因此,我们只能纯粹依赖行为模式或 "功能性欺骗",即 LLMs 输出信号,就好像它们有导致欺骗行为的意图。这与研究动物类似,虽然 "意图 "等心理标签只能与行为的某些方面而非心智状态联系起来,但在研究动物时,"意图 "等心理标签也会被使用。

因此,这项研究--它是 "机器心理学 "实验中的新生力量:避免对人工智能系统不透明的Transformer架构的内部状态作出断言,而是依赖于行为模式。

此外,这些实验并没有测试 LLMs 在欺骗 "驱动力 "的意义上有多倾向于从事欺骗行为。相反,这项研究的重点是探究 LLM 是否系统地具备欺骗能力。实验框架避免了与毫无戒心的用户进行欺骗性互动,而是依赖于在人类监督下的语言场景,从而实现了这一目的。

banq注:如果大模型出现“欺骗”,该改变的是我们对“欺骗”细分定义(例如善意谎言与恶意谎言)?还是一刀切改变大模型?
例如:DHH:我为何退出科技运动  中:

  • DHH二十年前用热情鼓舞了人们学习RoR,如今却被人们抛弃?当初行为是否是一种欺骗?人们付出了沉没成本。
  • 这其实是一种善意,至少RoR在当时确实很方便,解决了Web开发的快捷,类似PHP。