励志：OpenAI离职安全主管跳槽Anthropic继续超级对齐

Jan Leike是OpenAI前安全团队的负责人，他曾领导OpenAI的“超级对齐”团队，该团队致力于确保人工智能模型能够按照人类的想象力行事，避免失控。

除 Jan Leike 外，OpenAI 前首席科学家 Ilya Sutskever 也于 2024 年 5 月离职。两人的离职被视为OpenAI放弃AI安全研究的信号，引发了外界对OpenAI AI安全承诺的质疑。

Jan Leike最新推文：
我很高兴能加入@AnthropicAI继续超级校准使命！
我的新团队将致力于可扩展的监督，弱到强的泛化和自动对齐研究。

网友讨论：
1、在 Jan 的帮助下，Anthropic 希望开发出一种模型，能够拒绝 99% 以上的用户请求，为实现真正的对齐铺平道路。可以在www.Anthropic.com/Avoiding_bad_thought_and_naughty_words.html找到可接受查询的列表

2、那里就是他应该呆的地方。

3、一旦 Anthropic 发布 Claude 4，他就会离开/辞职。他会敦促他们不要发布它，因为向公众发布它太危险了（他是同一个团队的成员，他们说 GPT2 向公众发布它太危险了）。

4、问题是，在这个新的“超级对齐”团队中，Claude 会被阉割吗？
Claude 不会再被阉割了。Anthropic 一直非常重视“安全”，这就是为什么Claude 不拍照/拍视频/发声音（以避免冒犯艺术家和关注传统人际关系的人）。

5、说实话，很高兴看到“安全”人员离开 OpenAI。

6、我几乎完全相信，超级对齐与安全完全无关，尽管我们集体被迫相信这一点。

7、恭喜 Anthropic，你的进度至少减慢了 100%。享受那些被浪费的计算吧！

八卦：AI本周5则消息宫斗继续

前OpenAI董事会成员Helen Toner终于谈到了董事会解雇山姆奥特曼Sam Altman的原.
8条本周AIGC大模型八卦

1、奥特曼表示：AI 是外星智能的一种形式，但 OpenAI 正在将其设计得尽可能与人类兼容2、下周.
大语言模型涌现欺骗能力

这项研究发表在《国家科学院院刊》上，题为《大型语言模型中出现的欺骗能力》，揭示了大型语言模型 (LL.
Claude 3.5：大模型王者

.
“万能钥匙”漏洞使AI变得邪恶

人工智能公司一直在努力阻止用户找到新的“越狱”来绕过他们实施的护栏，以防止聊天机器人帮助制造毒或炸 .
Claude与ChatGPT比较：Claude更有道德？

在不断发展的人工智能（AI）世界中，对话式人工智能领域有两大巨头脱颖而出：Claude AI 和 O.
Claude最新九个用户体验测试

Anthropic 有一个公司的休闲频道，那里分享在网上看到的酷酷的Claude帖子和有趣的备忘录。.
ChatGPT宫斗剧终：伊利亚和OpenAI即将分道扬镳

ChatGPT CEO 产品经理奥特曼与首席科学家伊利亚终于分道扬镳，他在X发推：伊利亚和 Open.
合理解释：为什么安全不再是OpenAI关注焦点?

这里有一个合理解释（点击标题）：解释了为什么安全不是 OpenAI 关注的焦点。超级对齐团队离开 O.
烧脑：7条认知难题难倒了AI大模型

这个开源集成了各种用来挑战大型语言模型推理能力的提示，使用著名的思想实验或悖论测试大模型。这些思想实.
探究大语言模型的思维方式

Anthropic 对映射其大型语言模型 Claude 的内部表示的研究的要点：Anthropic .

励志：OpenAI离职安全主管跳槽Anthropic继续超级对齐

BM42：语义搜索与关键词搜索结合

LMOS：大型语言模型操作系统正在到来！

“万能钥匙”漏洞使AI变得邪恶

元学习：人类与大模型比较建模

比尔盖茨：元认知将是AI下一个前沿