Anthropic发布Fable模型,网络安全专家不满其过度限制
Anthropic发布网络安全模型Fable的公开版本,但因过度限制引发研究人员不满,他们认为护栏过于敏感,甚至阻止无害请求。
Anthropic周二发布了其最新模型Fable,称其为其强大且备受关注的网络安全模型Mythos的公开和有限版本。但并非所有人都对这些限制感到满意,许多网络安全研究人员和专业人士在网上表达了不满。
“Fable拒绝任何可能与网络相关的请求,即使是阅读博客文章这样无害的任务,”在IBM X-Force工作的著名安全研究员Valentina “Chompie” Palmiotti说。
当提示触发其护栏时,Fable会暂停聊天,并表示“安全措施标记了这条信息涉及网络安全或生物学主题。”设置护栏是为了限制Fable被用于开发恶意软件或破坏软件的风险——这是Anthropic长期以来的担忧。
对生物学的限制也源于对开发生物武器的类似担忧。当这家人工智能巨头在4月发布Mythos时,它通过所谓的Project Glasswing将模型限制在有限数量的公司和组织中,该项目旨在部署模型以保护关键软件和基础设施。
上周,Anthropic将Mythos的访问范围扩大到了15个国家的数百个组织。但尽管意图良好,许多网络安全专家仍然对这些限制的随意性感到不满。
网络安全资深人士Matt Suiche告诉TechCrunch,“如果你要求它编写安全代码,它会认为这是网络安全相关的工作,而不是软件工程最佳实践,然后你就会被降级。”Fable被设计成在触发护栏时回退到Claude Opus 4.8。
“它似乎是基于关键词的,因此‘网络安全’词汇领域的任何内容都会触发护栏。”联系我们您是否有关于黑客如何使用AI的更多信息?或者网络安全公司如何使用AI?我们很乐意收到您的来信。
从非工作设备和网络,您可以通过Signal安全地联系Lorenzo Franceschi-Bicchierai,电话:+1 917 257 1382,或通过Telegram和Keybase @lorenzofb,或电子邮件。
“但这是可以理解的,因为我们仍处于早期阶段,他们还在调整护栏。我相信他们会随着时间的推移而改进,因为Anthropic和其他前沿模型公司将与当前的新一代网络安全公司进行更多合作,”Suiche说,他是AI网络安全初创公司Tolmo的技术人员。
“在发布时,宁可多拦截一些人,也不要漏掉,然后随着时间的推移放松护栏。”另一位研究人员在X上抱怨,“甚至要求代码审查”都会触发Fable的护栏。Anthropic没有立即回应置评请求。
除了模型内的护栏外,Anthropic还要求网络安全专业人员申请Cyber Verification Program。
如果获得批准,申请人在使用Claude进行网络安全工作时的限制就会减少。OpenAI有一个类似的计划,名为Trusted Access for Cyber。
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。