精选· 重要性 4/5

Anthropic发布Fable模型，网络安全专家不满其过度限制

TechCrunch — AI·大约 12 小时前·Lorenzo Franceschi-Bicchierai·约 3 分钟阅读

中文导读

Anthropic发布网络安全模型Fable的公开版本，但因过度限制引发研究人员不满，他们认为护栏过于敏感，甚至阻止无害请求。

Anthropic周二发布了其最新模型Fable，称其为其强大且备受关注的网络安全模型Mythos的公开和有限版本。但并非所有人都对这些限制感到满意，许多网络安全研究人员和专业人士在网上表达了不满。

“Fable拒绝任何可能与网络相关的请求，即使是阅读博客文章这样无害的任务，”在IBM X-Force工作的著名安全研究员Valentina “Chompie” Palmiotti说。

当提示触发其护栏时，Fable会暂停聊天，并表示“安全措施标记了这条信息涉及网络安全或生物学主题。”设置护栏是为了限制Fable被用于开发恶意软件或破坏软件的风险——这是Anthropic长期以来的担忧。

对生物学的限制也源于对开发生物武器的类似担忧。当这家人工智能巨头在4月发布Mythos时，它通过所谓的Project Glasswing将模型限制在有限数量的公司和组织中，该项目旨在部署模型以保护关键软件和基础设施。

上周，Anthropic将Mythos的访问范围扩大到了15个国家的数百个组织。但尽管意图良好，许多网络安全专家仍然对这些限制的随意性感到不满。

网络安全资深人士Matt Suiche告诉TechCrunch，“如果你要求它编写安全代码，它会认为这是网络安全相关的工作，而不是软件工程最佳实践，然后你就会被降级。”Fable被设计成在触发护栏时回退到Claude Opus 4.8。

“它似乎是基于关键词的，因此‘网络安全’词汇领域的任何内容都会触发护栏。”联系我们您是否有关于黑客如何使用AI的更多信息？或者网络安全公司如何使用AI？我们很乐意收到您的来信。

从非工作设备和网络，您可以通过Signal安全地联系Lorenzo Franceschi-Bicchierai，电话：+1 917 257 1382，或通过Telegram和Keybase @lorenzofb，或电子邮件。

“但这是可以理解的，因为我们仍处于早期阶段，他们还在调整护栏。我相信他们会随着时间的推移而改进，因为Anthropic和其他前沿模型公司将与当前的新一代网络安全公司进行更多合作，”Suiche说，他是AI网络安全初创公司Tolmo的技术人员。

“在发布时，宁可多拦截一些人，也不要漏掉，然后随着时间的推移放松护栏。”另一位研究人员在X上抱怨，“甚至要求代码审查”都会触发Fable的护栏。Anthropic没有立即回应置评请求。

除了模型内的护栏外，Anthropic还要求网络安全专业人员申请Cyber Verification Program。

如果获得批准，申请人在使用Claude进行网络安全工作时的限制就会减少。OpenAI有一个类似的计划，名为Trusted Access for Cyber。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读