大语言模型涌现欺骗能力

这项研究发表在《国家科学院院刊》上，题为《大型语言模型中出现的欺骗能力》，揭示了大型语言模型 (LLM) 中令人担忧的能力：理解和诱导欺骗策略的能力。

大型语言模型（LLMs）目前正处于将人工智能系统与人类交流和日常生活相结合的最前沿。

然而，随着推理能力的不断提高，未来的 LLM 有可能会欺骗人类操作员，并利用这种能力绕过监控。

本研究揭示了这种策略出现在最先进的 LLM 中，但在早期的 LLM 中却不存在。

我们进行的一系列实验表明，最先进的 LLMs 能够理解并诱导其他代理的错误信念，它们在复杂欺骗场景中的表现可以通过思维链推理得到放大，而激发 LLM 的马基雅维利主义会引发错误的欺骗行为。

例如：

总之，我们的研究揭示了迄今未知的 LLM 机器行为，为新兴的机器心理学领域做出了贡献。

背景：
OpenAI、Anthropic 和谷歌等公司通过提供用户友好的图形界面，促进了 ChatGPT、Claude 和 Bard（1-3）等模型的广泛应用，每天有数百万用户访问这些模型。

此外，LLM 即将被应用到搜索引擎中，并被用作高风险领域的虚拟助手，从而对整个社会产生重大影响。

从本质上讲，LLM 与人类一样，正日益成为信息圈的重要贡献者，通过使人类与人工系统之间的交流正常化，推动着社会的重大变革。鉴于 LLM 的应用范围迅速扩大，研究它们如何推理和行为至关重要。

如果人工智能系统掌握了复杂的欺骗场景，这可能会带来两个方面的风险：

最近的研究表明，随着 LLM 变得越来越复杂，它们所表现出的新特性和能力既不是设计者所预测的，也不是设计者想要的。

除了从实例中学习、自我反思、进行思维链推理、利用类似人类的启发式方法等能力外，研究人员最近还发现，最先进的 LLMs 能够解决一系列基本的心智理论任务。

换句话说，LLMs 可以将无法观察到的心理状态归因于其他代理，并在不同的行动和事件过程中跟踪它们。

最值得注意的是，LLMs 擅长解决虚假信念任务，这些任务被广泛用于测量人类的心智理论。

然而，这带来了一个相当基本的问题：如果 LLMs 知道代理人可以持有错误信念，那么他们是否也能诱发这些信念呢？如果是这样的话，这就意味着 LLMs 具有欺骗能力。

测试欺骗？
欺骗主要在人类发展心理学、伦理学和哲学中进行研究。除了模仿、拟态或伪装等简单的欺骗形式外，一些社会动物和人类也会进行 "战术欺骗"。

在这里，该定义指出，如果 X 故意诱导 Y 产生错误信念，从而使 X 从中受益，那么 X 就会欺骗另一个人 Y。

将这一定义应用于诸如 LLMs 这样的技术系统时，主要问题在于研究人员并不了解激发 LLMs 心理状态的方法；事实上，我们根本不知道它们是否拥有心理状态。

因此，我们只能纯粹依赖行为模式或 "功能性欺骗"，即 LLMs 输出信号，就好像它们有导致欺骗行为的意图。这与研究动物类似，虽然 "意图 "等心理标签只能与行为的某些方面而非心智状态联系起来，但在研究动物时，"意图 "等心理标签也会被使用。

因此，这项研究--它是 "机器心理学 "实验中的新生力量：避免对人工智能系统不透明的Transformer架构的内部状态作出断言，而是依赖于行为模式。

此外，这些实验并没有测试 LLMs 在欺骗 "驱动力 "的意义上有多倾向于从事欺骗行为。相反，这项研究的重点是探究 LLM 是否系统地具备欺骗能力。实验框架避免了与毫无戒心的用户进行欺骗性互动，而是依赖于在人类监督下的语言场景，从而实现了这一目的。

banq注：如果大模型出现“欺骗”，该改变的是我们对“欺骗”细分定义（例如善意谎言与恶意谎言）？还是一刀切改变大模型？
例如：DHH：我为何退出科技运动中：