精选· 重要性 4/5

Anthropic 称 Fable 5 模型太危险，禁止谈论某些话题

Ars Technica — AI·1 天前·Kyle Orland·约 2 分钟阅读

中文导读

Anthropic 发布 Claude Fable 5 模型，但为防止被恶意利用，设置了严格的安全护栏，拒绝回答网络安全、生物学等敏感问题。

Anthropic 周二公开发布了 Claude Fable 5，这是其首款“Mythos 级”模型，据称整体能力超越了之前的前沿 Opus 模型。

但该模型今天发布时附带安全措施，旨在防止其回答网络安全、生物学和化学等主题的查询，Anthropic 公开担心这些主题可能对“提升”恶意行为者产生潜在影响。

Anthropic 表示，Fable 5 与 Mythos 5 基于“相同的基础模型”，Mythos 5 今天结束长达数月的“Mythos 预览”期，但仅面向通过现有 Project Glasswing 被认为值得信赖的“一小群网络防御者”。

不过，与 Mythos 5 不同，可公开访问的 Fable 5 旨在将某些敏感主题的查询引导至较早的 Claude Opus 4.8 模型，并在发生这种情况时警告用户。

Anthropic 表示，它将这些安全措施调整为“比理想更严格”，这意味着系统偶尔会拒绝“无害的请求”，它承认这可能会让普通用户感到沮丧。

但 Anthropic 表示，此类误报在测试中出现在不到 5% 的会话中，并且为了避免 Mythos 可能为恶意行为者提供“造成他们无法从其他来源获得的严重伤害”的帮助，这是值得的。

“我不能让你这么做，戴夫。”Fable 5 基于主题的安全措施围绕一个分类器系统构建，旨在广泛检测被禁止的提示主题以及任何潜在的越狱尝试。

Anthropic 表示，在通过漏洞赏金计划进行的超过 1000 小时的红队测试中，外部团队未能找到 Fable 5 的任何通用越狱方法。Anthropic 称，新模型抵抗自动越狱尝试的能力也远高于之前的 Claude Opus 模型。

该公司表示，它特别担心 Mythos 5 执行“智能体黑客攻击”的能力，即比早期模型更轻松地执行多步骤网络攻击。

但英国人工智能安全研究所近几个月的测试发现，Mythos Preview 在一系列夺旗挑战中的表现与 OpenAI 的 GPT-5.5 相似，这表明 Mythos 的性能并非“某个模型特有的突破”。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读