揭秘:GPT-4如何思考?


几周前,Anthropic宣布他们从 Claude 3 Sonnet 模型中提取了数百万个可理解的特征。今天,OpenAI 宣布了针对 GPT-4 的类似结果:

  • 使用新的可扩展方法将 GPT-4 的内部表示分解为 1600 万个可经常解释的模式。

这些特征是“我们希望人类能够解释的活动模式”。发布内容包括 [代码] 和论文《稀疏自动编码器的扩展和评估》 (PDF),其中有九位作者,其中两位 - Ilya Sutskever 和 Jan Leike - 是上个月离开 OpenAI 的知名人物。

解释神经网络的挑战
与大多数人类创造物不同,我们并不真正了解神经网络的内部运作。例如,工程师可以根据汽车零部件的规格直接设计、评估和修理汽车,确保汽车的安全和性能。然而,神经网络并不是直接设计出来的,而是由我们来设计训练它们的算法。由此产生的网络并不为人所熟知,也无法轻易分解为可识别的部分。这意味着我们无法像推理汽车安全那样推理人工智能的安全性。

为了理解和解释神经网络,我们首先需要找到有用的神经计算构件。不幸的是,语言模型内部的神经激活以不可预测的模式激活,似乎同时代表了许多概念。它们的激活也很密集,这意味着每个激活总是在每个输入上点燃。但现实世界中的概念非常稀疏--在任何给定的语境中,所有概念中只有一小部分是相关的。这就促使人们使用稀疏自动编码器,这种方法可以识别神经网络中对产生任何给定输出都很重要的少数 "特征",类似于一个人在推理某种情况时可能会想到的一小部分概念。它们的特征显示出稀疏的激活模式,自然地与人类易于理解的概念相一致,即使没有直接的可解释性激励。

然而,稀疏自动编码器的训练仍面临严峻挑战。大型语言模型代表了大量的概念,而我们的自动编码器可能也需要相应的庞大数量才能接近前沿模型中概念的全面覆盖。学习大量稀疏特征具有挑战性,而且过去的工作还没有显示出良好的扩展性。

我们的研究进展:大规模自动编码器训练
我们开发了最先进的新方法,可以将稀疏自动编码器扩展到前沿人工智能模型的数千万个特征。我们发现,我们的方法展示了平滑且可预测的扩展,与之前的技术相比,扩展回报率更高。我们还引入了几个新指标来评估特征质量。

我们使用我们的方法在 GPT-2 小型激活和 GPT-4 激活上训练了各种自动编码器,包括在 GPT-4 上训练了 1600 万个特征自动编码器。为了检查特征的可解释性,我们将给定的特征可视化,显示其激活的文档。

用于探索功能的交互式工具:是稀疏自动编码器特征的查看器

限制
我们很高兴可解释性最终能够提高模型的可信度和可操作性。然而,这仍处于早期阶段,存在许多局限性:

  • 与之前的研究一样,许多发现的特征仍然难以解释,许多特征的激活没有明确的模式,或者表现出与它们通常编码的概念无关的虚假激活。此外,我们也没有很好的方法来检查解释的有效性。
  • 稀疏自动编码器无法捕获原始模型的所有行为。目前,将 GPT-4 的激活通过稀疏自动编码器可获得与使用大约 10 倍计算量训练的模型相当的性能。为了完全映射前沿 LLM 中的概念,我们可能需要扩展到数十亿或数万亿个特征,即使使用改进的扩展技术,这也具有挑战性。
  • 稀疏自动编码器可以在模型的某一点找到特征,但这只是解释模型的一步。还需要做更多的工作来了解模型如何计算这些特征,以及这些特征如何在模型的其余部分中下游使用。