精选· 重要性 4/5

Anthropic 撤回秘密降级 Claude 以限制竞争对手的政策

Wired — AI·大约 13 小时前·Maxwell Zeff·约 5 分钟阅读

中文导读

Anthropic 曾计划在用户不知情的情况下降级 Claude Fable 5 的性能，以阻止竞争对手利用其模型进行 AI 研究，但在研究社区的强烈反对下，该公司已撤回该政策，并承诺使安全措施透明化。

Anthropic 正在撤回一项政策，该政策原本会秘密限制竞争对手使用其新 AI 模型 Claude Fable 5 来开发其他 AI 模型。在 AI 研究界强烈反对后，该公司改变了方向。

“我们正在改变 Fable 5 针对前沿大语言模型开发的安全措施，使其可见，”Anthropic 在给 WIRED 的声明中表示。“我们做出了错误的权衡，并为未能取得正确平衡而道歉。

”Anthropic 本周早些时候发布了 Claude Fable 5，这是其最新 AI 模型的一个版本，带有额外的安全护栏，旨在防止滥用。

Anthropic 决定的部分安全措施并不令人意外：该公司表示，会将询问网络安全、生物学或化学问题的用户重定向到能力较弱的 AI 模型，以减少有人利用先进 AI 进行网络攻击或制造生物武器的可能性。

但对于试图使用 Claude Fable 5 进行前沿 AI 开发的研究人员，Anthropic 概述了一种不同的方法：该公司会故意以用户不可见的方式降低模型性能。

此举实际上会破坏研究人员试图使用 Claude 训练竞争性 AI 模型的行为，而 Anthropic 在其服务条款中明确禁止这种行为。Anthropic 现在表示正在改变方向，Claude Fable 5 针对 AI 开发的安全措施将对用户可见。

如果该公司怀疑用户试图使用 Claude 构建高能力 AI，它会提醒用户要么拒绝请求，要么将用户重定向到能力较弱的模型。Anthropic 在遭到 AI 研究界强烈反对后逆转了该政策。

Anthropic 此前已采取措施限制竞争对手使用 Claude 构建封闭和开源 AI 模型，但批评者认为，悄悄降低模型对某些用户的性能做得太过分了。

Claude 的编码智能体已成为开发者（包括从事开源 AI 研究项目的开发者）青睐的工具，研究人员告诉 WIRED，该公司的最新政策可能导致一个令人不安的未来，即只有少数领先的 AI 实验室才能进行高级 AI 研究。

美国创新基金会高级研究员、前白宫 AI 顾问 Dean Ball 在 X 上发帖称：“*在不告知用户的情况下*降低机器学习研究的性能，是令人震惊的敌意行为，看起来非常糟糕。

”他在另一篇帖子中继续说道，“秘密破坏”政策削弱了 Anthropic 的整体立场，因为它限制了 AI 研究人员在 AI 安全方面的合作。“感觉 Anthropic 在对公众说：‘我们不相信其他人能做 AI 研究。

只有我们才能做 AI 研究，’”开源 AI 初创公司 Prime Intellect 的研究主管 Will Brown 表示。

“感觉有点像他们开始把梯子往上拉。”Brown 表示，该政策还会让开发者不清楚自己是否违反了 Anthropic 的规则，因为当安全措施被触发时，公司不会提醒他们。他补充说，这些限制可能产生广泛后果。

例如，他指出了不断增长的第三方评估公司生态系统，这些公司测试前沿模型的安全性、性能和可靠性——如果 Anthropic 秘密降级其模型，这些工作可能会受到阻碍。Anthropic 表示，它实施这些措施是因为 Claude 在加速 AI 研究方面变得越来越有效。

在最近的一篇博客文章中，该公司表示担心 AI 提升自身能力的速度可能超过社会适应速度。Anthropic 认为，“世界能够选择放慢或暂时暂停前沿 AI 开发，以使社会结构和对齐研究能够跟上，这对世界是有益的。

”“这些安全措施防止外国对手以构成严重安全风险的方式使用我们最有能力的模型。美国及其盟友在前沿芯片以及充分发挥其潜力的高度优化软件方面保持优势，”该公司在给 WIRED 的声明中表示。

“这些安全措施确保 Claude 不会被用来削弱这一优势——例如，通过优化那些对手开发的芯片……在决定是否让它们可见或不可见时，我们面临一个选择。隐藏的安全措施更难探测和绕过。这意味着安全措施可以更有针对性地应用。

”Anthropic 表示，由于这项围绕 AI 开发的安全措施现在可见，它需要撒更大的网，这意味着更多善意的请求可能会触发其安全措施。该公司表示，正在努力尽快使其分类器更加精确。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读