Claude 3.5 Sonnet为何更擅长做码农?


Claude 3.5 Sonnet因其机制可解释性而擅长编码。

机制可解释性:
这是指理解机器学习模型内部运作的能力,尤其是不同组件如何对模型的预测或输出做出贡献。

就 LLM 而言,这可能意味着理解不同层、神经元甚至单个权重在模型决策过程中的作用。

Anthropic方法:
Anthropic 是一家研究机构,专注于使先进的人工智能系统与人类价值观相一致。Anthropic 通过操纵 LLM 的权重或其他内部机制来解释和影响 LLM 行为的方法。

引导行为:
这里的 "引导 "一词意味着,通过了解模型的内部机制,人们可以引导或影响其行为向预期的方向发展。

这可能涉及调整模型的权重或其他参数,以优化特定任务(如编码)的性能。

解释大模型内部机制的难度:
当你试图单独理解一个模型的每个权重时,它们是没有意义的。

这就是叠加:

  • 每个神经元代表许多特征,
  • 但它们的组合可能代表我们可以理解的单一 "特征"。(涌现

SAE训练
为了理解这些数据,可以对权重进行稀疏自动编码器(SAE)训练。

其基本思想是将数据编码成一堆数字,然后尝试从中重新创建原始数据,并不断用数学方法调整数字,以尽可能地还原数据。(还原论)

在权重上训练 SAE 可能会耗费大量计算资源:

  • Anthropic 在 Sonnet 上使用 100 万、400 万和 3400 万个参数进行了这种训练。
  • 然后,当你看到文本生成时哪些特征被激活,
  • 你就可以推断出特征的含义:可以是概念、主题或行为。

一旦你知道了你的特征,你就可以在推理过程中把它们 "调"低或 "调 "高,从而改变模型的行为方式!

这就是人类干预让Claude成功的原因(也夹带了人类私货:认知偏见

然而,这个无伤大雅的演示并不能充分体现可解释性的威力。
还有更多抽象的功能,如代码错误、功能、不诚实、偏见、伤害、欺骗等等!(用人类中个别人的标准去筛选绑架言论)

事实上,每个特征激活的不是一个神经元,而是同时激活多个神经元。 更大的 SAE 可以显示更细粒度的特征,而且可以大于 34M。

功能引导就像脑外科手术。你可以引导 LLM 随心所欲地思考。

  • 想让模型不说 "不安全 "的话?
  • 想要它不表现出性别偏见?
  • 想要它生成的代码不存在安全漏洞?

夹住它!让它变成夹脑袋,司马夹!

那么,这一切意味着什么呢?
如今,如果你想让一个模型有不同的表现,就需要进行昂贵的微调:

  • 向它抛出文字,然后说 "要像这样表现"。
  • 这很难实现,成本很高,而且经常不起作用。

现在:
  • 你可以用外科手术的方式改变行为,成本非常低廉!

banq注:企业大语言模型应用场景打开了,企业AI 这词正中企业资本家的控制与追求确定性心理。

如果你只是想让一个模型......在某些方面做得更好,也是同样的道理。
这就是 3.5 Sonnet 的优势所在。 它的速度与 3 Sonnet 相同,价格便宜,而且性能出众,尤其是在代码方面,在 LMSys 中排名第一。 这就是我认为 3.5 非常好的原因!

banq注:考试黑客由此可以诞生了,只要有排行榜、考试,就有相应黑客,想在LLM排行榜中排列第一,专门针对排行榜测试指标优化。

来源: