Claude 3.5 Sonnet因其机制可解释性而擅长编码。
机制可解释性:
这是指理解机器学习模型内部运作的能力,尤其是不同组件如何对模型的预测或输出做出贡献。
就 LLM 而言,这可能意味着理解不同层、神经元甚至单个权重在模型决策过程中的作用。
Anthropic方法:
Anthropic 是一家研究机构,专注于使先进的人工智能系统与人类价值观相一致。Anthropic 通过操纵 LLM 的权重或其他内部机制来解释和影响 LLM 行为的方法。
引导行为:
这里的 "引导 "一词意味着,通过了解模型的内部机制,人们可以引导或影响其行为向预期的方向发展。
这可能涉及调整模型的权重或其他参数,以优化特定任务(如编码)的性能。
解释大模型内部机制的难度:
当你试图单独理解一个模型的每个权重时,它们是没有意义的。
这就是叠加:
- 每个神经元代表许多特征,
- 但它们的组合可能代表我们可以理解的单一 "特征"。(涌现)
SAE训练
为了理解这些数据,可以对权重进行稀疏自动编码器(SAE)训练。
其基本思想是将数据编码成一堆数字,然后尝试从中重新创建原始数据,并不断用数学方法调整数字,以尽可能地还原数据。(还原论)
在权重上训练 SAE 可能会耗费大量计算资源:
- Anthropic 在 Sonnet 上使用 100 万、400 万和 3400 万个参数进行了这种训练。
- 然后,当你看到文本生成时哪些特征被激活,
- 你就可以推断出特征的含义:可以是概念、主题或行为。
一旦你知道了你的特征,你就可以在推理过程中把它们 "调"低或 "调 "高,从而改变模型的行为方式!
这就是人类干预让Claude成功的原因(也夹带了人类私货:认知偏见)
然而,这个无伤大雅的演示并不能充分体现可解释性的威力。
还有更多抽象的功能,如代码错误、功能、不诚实、偏见、伤害、欺骗等等!(用人类中个别人的标准去筛选绑架言论)
事实上,每个特征激活的不是一个神经元,而是同时激活多个神经元。 更大的 SAE 可以显示更细粒度的特征,而且可以大于 34M。
功能引导就像脑外科手术。你可以引导 LLM 随心所欲地思考。
- 想让模型不说 "不安全 "的话?
- 想要它不表现出性别偏见?
- 想要它生成的代码不存在安全漏洞?
夹住它!让它变成夹脑袋,司马夹!
那么,这一切意味着什么呢?
如今,如果你想让一个模型有不同的表现,就需要进行昂贵的微调:
- 向它抛出文字,然后说 "要像这样表现"。
- 这很难实现,成本很高,而且经常不起作用。
现在:
- 你可以用外科手术的方式改变行为,成本非常低廉!
banq注:企业大语言模型应用场景打开了,企业AI 这词正中企业资本家的控制与追求确定性心理。
如果你只是想让一个模型......在某些方面做得更好,也是同样的道理。
这就是 3.5 Sonnet 的优势所在。 它的速度与 3 Sonnet 相同,价格便宜,而且性能出众,尤其是在代码方面,在 LMSys 中排名第一。 这就是我认为 3.5 非常好的原因!
banq注:考试黑客由此可以诞生了,只要有排行榜、考试,就有相应黑客,想在LLM排行榜中排列第一,专门针对排行榜测试指标优化。
来源:
- 交互式特征探索器:https://transformer-circuits.pub/2024/scaling-monosemanticity/umap.html?targetId=34m_31164353
- 理解权重:appendix-autoencoder>https://transformer-circuits.pub/2023/monosemantic-features/index.htmlappendix-autoencoder
- 缩放 SAE 和特征转向:assessing-tour-influence/>https://transformer-circuits.pub/2024/scaling-monosemanticity/index.htmlassessing-tour-influence/