励志:OpenAI离职安全主管跳槽Anthropic继续超级对齐


Jan Leike是OpenAI前安全团队的负责人,他曾领导OpenAI的“超级对齐”团队,该团队致力于确保人工智能模型能够按照人类的想象力行事,避免失控。

除 Jan Leike 外,OpenAI 前首席科学家 Ilya Sutskever 也于 2024 年 5 月离职。两人的离职被视为OpenAI放弃AI安全研究的信号,引发了外界对OpenAI AI安全承诺的质疑。

Jan Leike最新推文:
我很高兴能加入@AnthropicAI继续超级校准使命!
我的新团队将致力于可扩展的监督,弱到强的泛化和自动对齐研究。

网友讨论:
1、在 Jan 的帮助下,Anthropic 希望开发出一种模型,能够拒绝 99% 以上的用户请求,为实现真正的对齐铺平道路。可以在www.Anthropic.com/Avoiding_bad_thought_and_naughty_words.html找到可接受查询的列表

2、那里就是他应该呆的地方。

3、一旦 Anthropic 发布 Claude 4,他就会离开/辞职。他会敦促他们不要发布它,因为向公众发布它太危险了(他是同一个团队的成员,他们说 GPT2 向公众发布它太危险了)。

4、问题是,在这个新的“超级对齐”团队中,Claude 会被阉割吗?
Claude 不会再被阉割了。Anthropic 一直非常重视“安全”,这就是为什么Claude 不拍照/拍视频/发声音(以避免冒犯艺术家和关注传统人际关系的人)。

5、说实话,很高兴看到“安全”人员离开 OpenAI。

6、我几乎完全相信,超级对齐与安全完全无关,尽管我们集体被迫相信这一点。

7、恭喜 Anthropic,你的进度至少减慢了 100%。享受那些被浪费的计算吧!