精选· 重要性 4/5

前沿大模型在现实世界事实核查中分歧严重：67%的案例意见不一

Hacker News (AI)·13 天前·kostaj·约 9 分钟阅读

Hacker News 500 分

LLM 研究行业观点

中文导读

一项新研究对五个前沿大模型在1000个真实用户提交的事实核查声明上的表现进行了评估，发现67%的案例中模型之间存在分歧，34%的案例存在实质性分歧，表明当前顶级AI模型在事实判断上远未达成一致。

67%在真正的事实核查中，顶级人工智能模型并没有就答案达成一致。1，000项索赔，由5个前沿LLM评级。超越基准：前沿LL之间对现实世界事实核查的分歧我们向五个顶级前沿LLM提交了1，000个最近的真实用户声明，并要求每个声明做出裁决。

这些不是带有公共答案密钥的基准项目--而是真实用户提交给事实核查平台进行验证的声明。每项声明只有一个判决桶是正确的，因此专家组之间的任何分歧都意味着至少一个模型的判决在这个4桶标题下是标签不一致的（正确/大多正确/误导/错误）。

在67%的索赔中，专家组存在分歧。主要结论- 67%的索赔（672 /1，000;95% CI：64-70%）至少有一种前沿模型与专家组多数意见不同-或根本没有多数意见形式。- 34%的索赔（343 /1，000;

95% CI：31-37%）涉及最不一致的两对边境判决之间2+桶差距--这是对答案的实质性分歧，而不仅仅是校准转变。- 克里彭多夫的a（有序）= 0。5名评分者对1，000个项目进行了639次-非平凡但有限的协议。

- 专家组就最终的判决达成一致;标题的中间是它破裂的地方。在328项一致意见中，只有4项属于危险误导，0项属于危险-大多数正确。- 有些模型将判决集中在真/假极点;其他模型则分散在中间的两个桶上。

1边境不同意的频率对于67%的索赔（672 /1，000;95%CI：64-70%），前沿小组不同意-至少有一个模型不同意多数判决，或者根本没有严格的多数形式。细分：对于每一项主张，我们查看了五个前沿判决并询问：是否至少有三个人选择了相同的答案（严格多数）？

如果是，其余模特中有多少人持不同意见？如果根本没有出现明显的多数--判决分为三个或四个不同的时段--那么主张属于模型分裂，没有多数行。这些主张中的大多数不太可能出现在任何带有黄金标签的训练库中--没有可供模式匹配的典型答案密钥，也没有可供锚定的基准排行榜。

我们在下面提到“多数”和“多数异议”。“大多数前沿模型并不是基本事实。多数人的判决有时是错误的;个人持不同意见的模式有时是正确的。我们使用多数派作为衡量分歧的结构参考点，而不是作为正确性的替身。

小组一致意见：Krippendorff的a（有序）= 0。639例（n=1000例索赔，5名评定者）。这表明了非平凡但有限的一致性：模型的判决是结构化的，而不是随机的，但不足以一致地将小组视为单一的可互换法官。

有序α是有序分类量表（真/大部分真/误导/假）的标准Krippendorff变体。参见§7。

5度量选择的统计分析。模型误差的下限。对于每一个索赔，四个判决桶中只有一个是正确的答案。

如果我们假设小组最受欢迎的桶是正确的-最慈善的假设-选择错误判决的模型的最小数量是：- 67%的索赔中有至少1个模型错误（任何非一致小组）- 45%的索赔错误次数不超过2次（3-2、3-1-1或无多数分歧）- 13%的索赔中错误次数不超过3次（没有一个桶达到多数，

因此最多2次是正确的）放松“最受欢迎是正确的”假设只能提高这些计数，而永远不会降低它们。实际的错误率可能更高：即使是所有五个人都同意的33%的情况也可能包括共同的盲点。2实质性与细微差别的分歧在34%的索赔中（343 /1000;

95% CI：31-37%），至少有两个前沿模型在我们的4桶规则中选择了两个或更多桶的判决-这一分歧超出了校准范围。不是所有的分歧都是平等的。“真实”与“大多真实”的分裂是信心校准的转变。“真”与“假”的分歧是对答案的实质性分歧。

我们将其测量为每个声明上5个判决的最大成对桶距离，其中判决顺序为True（0）' Mostly True（1）' Misleading（2）' False（3）.警告。桶距离将真/大部分真/误导/假视为有序尺度;

等距解释是一种简化。

两桶的差距仍然可以反映标题的模糊性、时间框架差异或对“误导”的不同解释。“我们将其报告为粗略的‘实质性与细微差别’指标，而不是误差幅度的指标。

3型号与型号协议同行一致率最高：Gemini 3 Pro x Gemini 3 Pro + Search（75%）-并不奇怪，因为它们共享基本型号。最低：克劳德作品4。7 x双子座3 Pro，克劳德作品4。

7 x Gemini 3 Pro + Search和Gemini 3 Pro x Sonar Pro（53%）-三对在地板上并列。每对前沿模型在文集中的所有主张中选择相同判决标签的频率。4每个模型的行为同样的五个模型的两个角度：每个模型如何分配其结论（4。

1），以及每个人的判决与其他四个人的绝对多数相匹配的频率（4. 2）。4. 1判决分配有些模型将判决集中在真/假极点;其他模型则更广泛地分布在中间的两个桶中。这反映了模型级决策先验与特定主张相互作用--如果没有基本事实，我们就无法将两者分开。

下表显示了每个模型分配给每个桶的索赔份额，每个单元格下方有95%的Wilson CI。4. 2与小组其他成员的协议在这五种模型中，同行多数同意率从69%到81%不等。这是该文集中的对等对齐，而不是正确性--这里没有模型被视为基本真相，并且符合条件的n每一行都不同。

对于每个模型，其判决与其他四个模型的严格多数（至少3/4）匹配的频率有多高？只有当其他四项索赔中存在至少3/4多数时，索赔才符合资格。5详细结果5. 1每个领域的边界分歧每行分母：该域中的声明（声明列）。

5. 2按判决小组协议当面板确实落在中间桶上时，它几乎永远不会收敛。大多数正确和误导性的多数派最多在5%的时间内达到一致性，而正确和错误的多数派最多在43-47%的时间内达到一致性。

与此一致，对不同的现实世界数据库（17，856个PolitiFact声明，单家族Lama-3消融，Schwab等人，2025）的工作发现，细微差别的标签是事实检查判决模型集中错误的地方--这是来自不同方法论设置（单家族消融，而不是前沿小组）的相关观察结果。

分母：在此判决中严格获得至少3/5边境多数的主张。揭示专家组对哪些判决最有信心/最不有信心。

从另一个方向来看--在所有5个前沿模型都得出相同结论的328项主张中，各判决之间的分布：6数据1，000项索赔-最新的现实世界用户提交给事实核查平台，通过了下面排除项下列出的每个资格过滤器。这些索赔的日期均不早于2026年2月15日。

除非另有说明，否则本页面上的每个指标都使用此集合作为分母;使用不同分母的表（例如G.

判决中严格超过3/5边境多数的主张）将其列明。出处这些说法被提交给事实核查平台Lenz。我们选择这个文集是因为它代表了有机的现实世界事实核查请求，而不是精心策划的基准项目。伦茨自己对每项主张的判断并未用于本分析--本文仅衡量前沿模型的分歧，而不是伦茨与前沿。

索赔正常化原子_声明CSV中的字段不是用户的原始提交。这是Lenz框架步骤的输出，该步骤去除了情感语言和偏见，并将输入提炼成一个以提交日期为基础的中立、可测试的命题。前沿模型是

原文出处

Disagreement among frontier LLMs on real-world fact-checks

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

前沿大模型在现实世界事实核查中分歧严重：67%的案例意见不一

相关阅读

Anthropic模型命名体系推演：从俳句到电影宇宙

Claude Desktop每次启动强制创建1.8GB虚拟机，即使仅用于聊天

Apache Burr：构建可靠AI代理与应用的Python框架