Anthropic发布Claude Fable 5:性能领先但伴随争议性使用政策
Anthropic推出Mythos级模型Claude Fable 5,在多项基准测试中大幅领先,但新增数据保留30天和限制前沿LLM开发的政策引发社区争议。
[AINews] Anthropic Claude Fable 5 — 神话级但安全,条款引争议备受期待的神话级模型发布,却因一些有争议的使用政策而蒙上阴影从某些指标看,Opus 4.8 发布仅两周,就已经是全球领先的模型。
但现在,在SpaceXai交易达成34天后、最初Mythos公告发布63天后,我们终于有了一款Mythos级模型(至少是Opus的两倍大小),所有人都可以使用(恰逢Claude Tokyo发布)。
将这些研究模型推向GA是一项令人难以置信的工程壮举(以及对可访问性的承诺),基准测试结果也非常出色……但带有星号。
这是昨天全新的、分布外的FrontierCode Diamond上的表现,从13.4%提升到29.3%:博客和系统卡包含了大部分权威信息,但不要错过YouTube视频,展示了它玩Factorio、Pokemon(与Claude Plays Pokemon不同,
这里仅使用视觉,没有我们播客中提到的复杂装备)、EDM可视化(此前从未听过音乐)、3D CAD编辑器创建和打印,以及主要介绍视频中的更多内容。API定价也非常出色,大约是Opus的两倍。
星号的出现是因为Fable的发布伴随着两个有争议的变化:无ZDR:“我们将要求Mythos级模型的所有流量(无论是第一方还是第三方)保留30天。
我们不会使用这些数据来训练新的Claude模型,或用于任何非安全相关目的,并且我们已经制定了新的隐私保护措施,包括记录所有人类对数据的访问,并确保在几乎所有情况下30天后删除数据……(见完整政策)RSI抑制:“鉴于近期模型加速自身开发的能力,我们实施了新的干预措施,
限制了Claude针对前沿LLM开发请求的有效性(例如,构建预训练管道、分布式训练基础设施或ML加速器设计)。使用Claude开发竞争模型已经违反我们的服务条款,但通过我们的保障措施强制执行这一限制,可以避免加速那些最愿意违反这些条款的行为者。
> 与我们对网络安全、生物学、化学以及蒸馏尝试的干预措施不同,这些保护措施对用户不可见。Fable 5不会回退到其他模型。相反,这些保障措施将通过提示修改、引导向量或参数高效微调(PEFT)等方法限制有效性。
这些干预措施不会影响绝大多数编码工作。我们估计它们将影响约0.03%的流量,集中在不到0.1%的组织中。”绝大多数用户不会受到这些限制的影响,但开放AI社区感到不安是可以理解的,正如你将在下面看到的那样。
你可以在Diane Penn的东京演讲中找到更多关于使用的建议,我们已将其剪辑如下。*(在Anthropic和OpenAI各自提交S-1文件、为SpaceX下周IPO做准备的一周零一天后……)2026年6月8日至6月9日的AI新闻。
我们检查了12个子版块、544条Twitter,没有其他Discord频道。AINews网站允许你搜索所有过往期刊。提醒一下,AINews现在是Latent Space的一部分。你可以选择加入/退出邮件频率!
AI Twitter回顾头条新闻:Anthropic Claude Fable 5 和 Mythos 5 发布发生了什么Anthropic发布了其下一代主要模型系列的两个版本:Claude Fable 5 面向大众,Claude Mythos 5 限制访问。
Anthropic正式宣布Claude Fable 5是其“第一款普遍可用的Mythos级模型”,称其超越了之前广泛可用的任何模型,并且在几乎所有测试的基准测试中都是最先进的 @claudeai,
@claudeaiAnthropic表示Fable 5与Mythos 5是相同的基础模型,
但增加了安全措施,一些与网络/生物/化学/蒸馏相关的提示可能会被路由到Claude Opus 4.8 而不是 @ClaudeDevs,@scaling01Anthropic表示,对于“狭窄范围”的潜在有害主题,查询会透明地回退到Opus 4.8,
并根据早期面向用户的消息 @claudeai,@mikeyk 声称95%以上的会话从未遇到回退。
Anthropic开发者消息称,回退功能可通过服务器端以及Python、TypeScript、Go、Java和C#的SDK中间件使用 @ClaudeDevsFable 5和Mythos 5的定价均为每百万输入token 10美元,每百万输出token 50美元;
第三方评估人员后来报告缓存定价为每百万缓存写入12.50美元,每百万缓存读取1美元 @scaling01,@ArtificialAnlys根据Artificial Analysis @ArtificialAnlys,
Fable 5保留了Anthropic的100万token上下文窗口Anthropic将Fable 5纳入Pro、
Max、Team和基于座位的Enterprise计划,直至6月22日,之后表示由于容量限制将需要使用积分,并计划稍后恢复更广泛的订阅访问 @ClaudeDevs,@scaling01,@ArtificialAnlys,@kimmonismus关于临时纳入的困惑立即出现;
用户询问“包含到6月22日”是什么意思,Anthropic工作人员澄清了推出计划 @dejavucoder,@TheAmolAvasare在需求旺盛后,
Anthropic后来重置了各产品的5小时和每周速率限制 @ClaudeDevs官方声明和第三方基准数据Anthropic和合作伙伴平台报告了广泛的基准领先优势,尤其是在编码和长期智能体任务中。
Anthropic公开声明:Fable 5在软件工程、知识工作、科学研究和视觉方面尤其强大,其领先优势随任务长度和复杂度增加而增加 @claudeaiCursor表示Fable 5在CursorBench上取得了新的SOTA,达到72.9%,
比之前最佳高出8个百分点 @cursor_aiCognition表示Fable 5在FrontierCode上排名第一,
Devin已将其集成到Devin Cloud Ultra、桌面和CLI中 @cognition,@cognitionCline报告Fable 5在Terminal-Bench 2.1上达到88.0%,
比GPT-5.5高出4.6个百分点 @clineArtificial Analysis将Fable 5在其智能指数中排名第一,
得分64.9,比GPT-5.5领先约5个百分点,并表示Anthropic占据了前两名 @ArtificialAnlysArtificial Analysis还报告:GDPval-AA Elo 1932,
在智能体现实世界知识工作中排名第一 @ArtificialAnlys在人类最后一次考试中得分53%,比次优模型高出7个百分点以上,而回退在9%的HLE任务中被触发 @ArtificialAnlys智能指数任务中约8%的回退路由,
主要集中在科学问题上 @ArtificialAnlysAnthropic表示平均回退发生在不到5%的会话中 @ArtificialAnlys社区基准总结强调了编码方面的巨大差距:
SWE-Bench Pro:Fable 5 80.3% vs GPT-5.5 58.6% @Yuchenj_UWFrontierCode Diamond:
Mythos 5 30.9% vs 第二名 13.4% @scaling01Anthropic ECI 161.29 for Mythos 5 @scaling01
Artificial Analysis指出,Fable 5在AA-Omniscience上的知识基准跃升可能意味着其模型比之前的Anthropic公开模型更大,尽管这是推断而非确认的规格 @ArtificialAnlys产品行为、
使用概况和部署细节此次发布的特点既包括工作流程变化和成本概况,也包括原始评估。Anthropic员工和早期用户反复将Fable 5描述为适用于非常长、高努力任务的模型,用户从分配任务转向分配目标/责任 @felixrieseberg,@ClaudeDevs,
@alexalbert__Anthropic建议用户默认使用xhigh/high effort,
重写旧的CLAUDE.md指令,并让模型使用更多判断 @alexalbert__Anthropic的开发者消息强调多智能体编排,Fable可将任务委托给Claude托管智能体中的较小模型 @ClaudeDevs多位测试者将Fable描述为缓慢、消耗token多、昂贵,
但能力异常强大:Dan Shipper表示它通常在一个任务上使用50万到100万token,最好留给繁重的工作 @danshipperSimon Willison称其“缓慢、昂贵且有能力” @simonwTheo很快达到了限制,后来对Anthropic的速率提升表示欢迎
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。