Anthropic发布Claude Opus 4.8:性能提升、诚实度增强并引入动态工作流
Anthropic发布Claude Opus 4.8,在编码、推理和代理任务上显著超越前代,同时大幅提升诚实度并降低错误率,并引入动态工作流和努力控制等新功能。
介绍 Claude Opus 4.8我们正在将 Claude Opus 升级到一个新版本:Claude Opus 4.8。它在 Opus 4.7 的基础上进行了基准测试的改进,并且是一个更有效的协作者。
今天即可购买,价格相同。Opus 4.8 与多项新功能一同推出。claude.ai 上的用户现在可以控制 Claude 在任务中投入的精力。Claude Code 新增了“动态工作流”功能,使其能够处理非常大规模的问题。
Opus 4.8 的快速模式——模型可以以 2.5 倍的速度工作——现在比之前型号便宜三倍。Opus 4.8 的能力下表显示了 Opus 4.8 在编码、代理技能、推理和实践知识工作任务测试中与其前身及其他模型的比较。
更多细节和更广泛的能力评估见 Claude Opus 4.8 系统卡。与 Opus 4.8 协作早期测试者发现 Claude Opus 4.8 在执行代理任务时判断更可靠、更敏锐。
以下是许多测试者关于他们与 Opus 4.8 协作体验的引用:Claude Opus 4.8 的判断力明显更好。在 Claude Code 中,它会提出正确的问题,发现自己的错误,在计划不健全时提出异议,并在做出重大更改之前对复杂的多服务探索建立信心。
这是一个很好的构建模型。在我们的 Super-Agent 基准测试中,Claude Opus 4.
8 是唯一一个端到端完成每个案例的模型,击败了之前的 Opus 模型和 GPT-5.5,成本相当。对于翻译、深度研究、幻灯片构建和分析等代理产品,它提供了强大的可靠性。
在 CursorBench 上,Claude Opus 4.8 在每个努力级别上都超过了之前的 Opus 模型。工具调用效率显著提高,用更少的步骤实现相同的智能,并且能够完成端到端的任务。
Claude Opus 4.8 在我们的 Legal Agent Benchmark 上取得了最高分,并且是第一个在全通标准下总体突破 10% 的模型。对于实质性法律工作来说,这种准确性的提升直接转化为我们的客户可以放心地移交多少真正的律师工作。
Claude Opus 4.8 感觉像是对 Opus 4.7 的一次重大生活质量更新:更快、更容易协作,并且更擅长在长时间会话中保持上下文和风格方向。Opus 4.8 是我一直信赖的工作模型,其中声音、品味和技术执行必须同时进行。
Claude Opus 4.8 是我们测试过的最强的计算机使用和浏览器代理模型,在 Online-Mind2Web 上得分 84%,这比 Opus 4.7 和 GPT-5.5 都有显著提升。它保持反思性和任务专注性,以满足客户代理工作负载端到端可靠性的需求。
Claude Opus 4.
8 干净地使用工具,并遵循指令,其一致性足以让我们的自主工程工作负载无人值守地持续运行。它改进了 Opus 4.6,并修复了我们在 Opus 4.7 中看到的评论冗长和工具调用问题。Anthropic 的这一版本直接为在 Devin 上构建的工程师带来了更快的能力提升。
在我们长期运行的评估中,Claude Opus 4.8 的分析质量始终高于之前的 Opus 模型。它完成得更快,并产生更丰富、信息密度更高的输出。总体而言,信噪比明显更好。
最大的区别在于 Opus 4.8 倾向于主动标记分析输入和输出中的问题,而其他模型通常会忽略这些问题,留给用户去发现。在 CoCounsel Legal 中,与之前的 Opus 模型相比,Claude Opus 4.8 在一致性和推理质量方面带来了有意义的改进。
对于我们客户所依赖的高风险专业工作流程来说,这种可靠性至关重要。当我们为法律和税务专业人士构建信托级 AI 系统时,此类进步有助于提高现实工作流程中可信 AI 性能的标准。Claude Opus 4.8 为企业 AI 设定了新标准。
在 Databricks 用于数据和知识工作的 AI 代理 Genie 中,新的 Opus 模型开启了代理推理的阶跃变化,比之前的任何 Opus 都更快地解决更深层次的多步骤问题。
其多模态优势还使 Genie 能够直接对 PDF、图表和其他非结构化内容进行推理,令牌成本比 Opus 4.7 便宜 61%。
对于 Hebbia 编排器中的财务文档工作流程,Claude Opus 4.8 提供了与 Opus 4.7 相同的强大质量,同时引用精度明显更高,检索令牌效率更高,这对于我们的客户每天运行的密集文件非常有效。
Opus 4.8 最突出的改进之一是其诚实性。我们训练所有模型保持诚实——例如,避免做出无法支持的声明。但 AI 模型的一个普遍问题是它们有时会妄下结论,自信地声称工作取得了进展,尽管证据不足。
早期测试者报告说,Opus 4.8 更有可能表明其工作的不确定性,并且不太可能做出无根据的声明。我们的评估证实了这一点,显示 Opus 4.8 允许其编写的代码中存在缺陷而不加标记的可能性大约是前代的四分之一。
与往常一样,我们在发布前对模型进行了详细的对齐评估。在积极特质方面,我们的对齐团队得出结论,Opus 4.8“在我们对亲社会特质的衡量标准上达到了新高,例如支持用户自主权和以用户最大利益行事。
”评估还显示 Opus 4.
8 的错位行为(如欺骗或配合滥用)发生率远低于 Opus 4.7,并且与我们最佳对齐的模型 Claude Mythos Preview 相似。完整的对齐评估以及一套部署前安全测试已在 Claude Opus 4.8 系统卡中报告。
今天也推出除了 Claude Opus 4.8,我们还进行了以下更新:- 动态工作流。这项新功能在研究预览中提供,允许 Claude 在 Claude Code 中承担更大的任务。
Claude 可以规划工作,然后在单个会话中运行数百个并行子代理(使用 Opus 4.8 时,代理可以运行更长时间)。然后在向用户报告之前验证其输出。
例如,Claude Code 与 Opus 4.8 现在可以以现有测试套件为标准,从启动到合并,跨数十万行代码执行代码库规模的迁移。您可以在这篇文章中阅读有关动态工作流的更多信息(适用于 Claude Code for Enterprise、Team 和 Max 计划)。
- claude.ai 和 Cowork 中的努力控制。模型选择器旁边的新控件允许用户选择 Claude 在响应中投入多少努力。在更高的努力设置下,Claude 会更频繁、更深入地思考,以提供更好的响应。
在较低的努力设置下,Claude 会更快响应,并更慢地消耗用户的速率限制。用户现在拥有这个选择——努力控制适用于所有计划。
- Messages API 现在接受消息数组内的系统条目。开发人员可以在任务中途更新 Claude 的指令,而无需破坏提示缓存或通过用户回合路由更新。这可以在给定的工具中使用,以在代理运行时更新权限、令牌预算或环境上下文。
关于努力的说明Opus 4.8 默认使用高努力,我们认为这是质量和用户体验的最佳整体平衡。在编码任务上,这个努力级别花费的令牌数量与 Opus 4.7 的默认值相似,但性能更好。
用户可以选择“extra”(Claude Code 中为“xhigh”)或“max”,模型将花费更多令牌以获得更好的结果;我们建议对困难任务和长时间运行的异步工作流使用“extra”。我们提高了 Claude Code 中的速率限制,以适应更高的令牌使用量。