AI 见闻
精选· 重要性 4/5

Anthropic 称 Fable 5 模型太危险,禁止谈论某些话题

Ars Technica — AI··Kyle Orland·约 2 分钟阅读
中文导读

Anthropic 发布 Claude Fable 5 模型,但为防止被恶意利用,设置了严格的安全护栏,拒绝回答网络安全、生物学等敏感问题。

Anthropic 周二公开发布了 Claude Fable 5,这是其首款“Mythos 级”模型,据称整体能力超越了之前的前沿 Opus 模型。

但该模型今天发布时附带安全措施,旨在防止其回答网络安全、生物学和化学等主题的查询,Anthropic 公开担心这些主题可能对“提升”恶意行为者产生潜在影响。

Anthropic 表示,Fable 5 与 Mythos 5 基于“相同的基础模型”,Mythos 5 今天结束长达数月的“Mythos 预览”期,但仅面向通过现有 Project Glasswing 被认为值得信赖的“一小群网络防御者”。

不过,与 Mythos 5 不同,可公开访问的 Fable 5 旨在将某些敏感主题的查询引导至较早的 Claude Opus 4.8 模型,并在发生这种情况时警告用户。

Anthropic 表示,它将这些安全措施调整为“比理想更严格”,这意味着系统偶尔会拒绝“无害的请求”,它承认这可能会让普通用户感到沮丧。

但 Anthropic 表示,此类误报在测试中出现在不到 5% 的会话中,并且为了避免 Mythos 可能为恶意行为者提供“造成他们无法从其他来源获得的严重伤害”的帮助,这是值得的。

“我不能让你这么做,戴夫。”Fable 5 基于主题的安全措施围绕一个分类器系统构建,旨在广泛检测被禁止的提示主题以及任何潜在的越狱尝试。

Anthropic 表示,在通过漏洞赏金计划进行的超过 1000 小时的红队测试中,外部团队未能找到 Fable 5 的任何通用越狱方法。Anthropic 称,新模型抵抗自动越狱尝试的能力也远高于之前的 Claude Opus 模型。

该公司表示,它特别担心 Mythos 5 执行“智能体黑客攻击”的能力,即比早期模型更轻松地执行多步骤网络攻击。

但英国人工智能安全研究所近几个月的测试发现,Mythos Preview 在一系列夺旗挑战中的表现与 OpenAI 的 GPT-5.5 相似,这表明 Mythos 的性能并非“某个模型特有的突破”。

原文出处
Anthropic says these topics are too dangerous to let its Fable 5 model talk about

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读