Claude 3.5 Sonnet为何更擅长做码农？

Claude 3.5 Sonnet因其机制可解释性而擅长编码。

机制可解释性：
这是指理解机器学习模型内部运作的能力，尤其是不同组件如何对模型的预测或输出做出贡献。

就 LLM 而言，这可能意味着理解不同层、神经元甚至单个权重在模型决策过程中的作用。

Anthropic方法：
Anthropic 是一家研究机构，专注于使先进的人工智能系统与人类价值观相一致。Anthropic 通过操纵 LLM 的权重或其他内部机制来解释和影响 LLM 行为的方法。

引导行为：
这里的 "引导 "一词意味着，通过了解模型的内部机制，人们可以引导或影响其行为向预期的方向发展。

这可能涉及调整模型的权重或其他参数，以优化特定任务（如编码）的性能。

解释大模型内部机制的难度：
当你试图单独理解一个模型的每个权重时，它们是没有意义的。

这就是叠加：

SAE训练
为了理解这些数据，可以对权重进行稀疏自动编码器（SAE）训练。

其基本思想是将数据编码成一堆数字，然后尝试从中重新创建原始数据，并不断用数学方法调整数字，以尽可能地还原数据。(还原论)

在权重上训练 SAE 可能会耗费大量计算资源：

一旦你知道了你的特征，你就可以在推理过程中把它们 "调"低或 "调 "高，从而改变模型的行为方式！

这就是人类干预让Claude成功的原因（也夹带了人类私货：认知偏见）

然而，这个无伤大雅的演示并不能充分体现可解释性的威力。
还有更多抽象的功能，如代码错误、功能、不诚实、偏见、伤害、欺骗等等！（用人类中个别人的标准去筛选绑架言论）

事实上，每个特征激活的不是一个神经元，而是同时激活多个神经元。更大的 SAE 可以显示更细粒度的特征，而且可以大于 34M。

功能引导就像脑外科手术。你可以引导 LLM 随心所欲地思考。

夹住它！让它变成夹脑袋，司马夹！

那么，这一切意味着什么呢？
如今，如果你想让一个模型有不同的表现，就需要进行昂贵的微调：

现在：

banq注：企业大语言模型应用场景打开了，企业AI 这词正中企业资本家的控制与追求确定性心理。

如果你只是想让一个模型......在某些方面做得更好，也是同样的道理。
这就是 3.5 Sonnet 的优势所在。它的速度与 3 Sonnet 相同，价格便宜，而且性能出众，尤其是在代码方面，在 LMSys 中排名第一。这就是我认为 3.5 非常好的原因！

banq注：考试黑客由此可以诞生了，只要有排行榜、考试，就有相应黑客，想在LLM排行榜中排列第一，专门针对排行榜测试指标优化。

来源：

交互式特征探索器：https://transformer-circuits.pub/2024/scaling-monosemanticity/umap.html?targetId=34m_31164353
理解权重：appendix-autoencoder>https://transformer-circuits.pub/2023/monosemantic-features/index.htmlappendix-autoencoder
缩放 SAE 和特征转向：assessing-tour-influence/>https://transformer-circuits.pub/2024/scaling-monosemanticity/index.htmlassessing-tour-influence/