前沿大模型在现实世界事实核查中分歧严重:67%的案例意见不一
一项新研究对五个前沿大模型在1000个真实用户提交的事实核查声明上的表现进行了评估,发现67%的案例中模型之间存在分歧,34%的案例存在实质性分歧,表明当前顶级AI模型在事实判断上远未达成一致。
67%在真正的事实核查中,顶级人工智能模型并没有就答案达成一致。1,000项索赔,由5个前沿LLM评级。超越基准:前沿LL之间对现实世界事实核查的分歧我们向五个顶级前沿LLM提交了1,000个最近的真实用户声明,并要求每个声明做出裁决。
这些不是带有公共答案密钥的基准项目--而是真实用户提交给事实核查平台进行验证的声明。每项声明只有一个判决桶是正确的,因此专家组之间的任何分歧都意味着至少一个模型的判决在这个4桶标题下是标签不一致的(正确/大多正确/误导/错误)。
在67%的索赔中,专家组存在分歧。主要结论- 67%的索赔(672 /1,000;95% CI:64-70%)至少有一种前沿模型与专家组多数意见不同-或根本没有多数意见形式。- 34%的索赔(343 /1,000;
95% CI:31-37%)涉及最不一致的两对边境判决之间2+桶差距--这是对答案的实质性分歧,而不仅仅是校准转变。- 克里彭多夫的a(有序)= 0。5名评分者对1,000个项目进行了639次-非平凡但有限的协议。
- 专家组就最终的判决达成一致;标题的中间是它破裂的地方。在328项一致意见中,只有4项属于危险误导,0项属于危险-大多数正确。- 有些模型将判决集中在真/假极点;其他模型则分散在中间的两个桶上。
1边境不同意的频率对于67%的索赔(672 /1,000;95%CI:64-70%),前沿小组不同意-至少有一个模型不同意多数判决,或者根本没有严格的多数形式。细分:对于每一项主张,我们查看了五个前沿判决并询问:是否至少有三个人选择了相同的答案(严格多数)?
如果是,其余模特中有多少人持不同意见?如果根本没有出现明显的多数--判决分为三个或四个不同的时段--那么主张属于模型分裂,没有多数行。这些主张中的大多数不太可能出现在任何带有黄金标签的训练库中--没有可供模式匹配的典型答案密钥,也没有可供锚定的基准排行榜。
我们在下面提到“多数”和“多数异议”。“大多数前沿模型并不是基本事实。多数人的判决有时是错误的;个人持不同意见的模式有时是正确的。我们使用多数派作为衡量分歧的结构参考点,而不是作为正确性的替身。
小组一致意见:Krippendorff的a(有序)= 0。639例(n=1000例索赔,5名评定者)。这表明了非平凡但有限的一致性:模型的判决是结构化的,而不是随机的,但不足以一致地将小组视为单一的可互换法官。
有序α是有序分类量表(真/大部分真/误导/假)的标准Krippendorff变体。参见§7。
5度量选择的统计分析。模型误差的下限。对于每一个索赔,四个判决桶中只有一个是正确的答案。
如果我们假设小组最受欢迎的桶是正确的-最慈善的假设-选择错误判决的模型的最小数量是:- 67%的索赔中有至少1个模型错误(任何非一致小组)- 45%的索赔错误次数不超过2次(3-2、3-1-1或无多数分歧)- 13%的索赔中错误次数不超过3次(没有一个桶达到多数,
因此最多2次是正确的)放松“最受欢迎是正确的”假设只能提高这些计数,而永远不会降低它们。实际的错误率可能更高:即使是所有五个人都同意的33%的情况也可能包括共同的盲点。2实质性与细微差别的分歧在34%的索赔中(343 /1000;
95% CI:31-37%),至少有两个前沿模型在我们的4桶规则中选择了两个或更多桶的判决-这一分歧超出了校准范围。不是所有的分歧都是平等的。“真实”与“大多真实”的分裂是信心校准的转变。“真”与“假”的分歧是对答案的实质性分歧。
我们将其测量为每个声明上5个判决的最大成对桶距离,其中判决顺序为True(0)' Mostly True(1)' Misleading(2)' False(3).警告。桶距离将真/大部分真/误导/假视为有序尺度;
等距解释是一种简化。
两桶的差距仍然可以反映标题的模糊性、时间框架差异或对“误导”的不同解释。“我们将其报告为粗略的‘实质性与细微差别’指标,而不是误差幅度的指标。
3型号与型号协议同行一致率最高:Gemini 3 Pro x Gemini 3 Pro + Search(75%)-并不奇怪,因为它们共享基本型号。最低:克劳德作品4。7 x双子座3 Pro,克劳德作品4。
7 x Gemini 3 Pro + Search和Gemini 3 Pro x Sonar Pro(53%)-三对在地板上并列。每对前沿模型在文集中的所有主张中选择相同判决标签的频率。4每个模型的行为同样的五个模型的两个角度:每个模型如何分配其结论(4。
1),以及每个人的判决与其他四个人的绝对多数相匹配的频率(4. 2)。4. 1判决分配有些模型将判决集中在真/假极点;其他模型则更广泛地分布在中间的两个桶中。这反映了模型级决策先验与特定主张相互作用--如果没有基本事实,我们就无法将两者分开。
下表显示了每个模型分配给每个桶的索赔份额,每个单元格下方有95%的Wilson CI。4. 2与小组其他成员的协议在这五种模型中,同行多数同意率从69%到81%不等。这是该文集中的对等对齐,而不是正确性--这里没有模型被视为基本真相,并且符合条件的n每一行都不同。
对于每个模型,其判决与其他四个模型的严格多数(至少3/4)匹配的频率有多高?只有当其他四项索赔中存在至少3/4多数时,索赔才符合资格。5详细结果5. 1每个领域的边界分歧每行分母:该域中的声明(声明列)。
5. 2按判决小组协议当面板确实落在中间桶上时,它几乎永远不会收敛。大多数正确和误导性的多数派最多在5%的时间内达到一致性,而正确和错误的多数派最多在43-47%的时间内达到一致性。
与此一致,对不同的现实世界数据库(17,856个PolitiFact声明,单家族Lama-3消融,Schwab等人,2025)的工作发现,细微差别的标签是事实检查判决模型集中错误的地方--这是来自不同方法论设置(单家族消融,而不是前沿小组)的相关观察结果。
分母:在此判决中严格获得至少3/5边境多数的主张。揭示专家组对哪些判决最有信心/最不有信心。
从另一个方向来看--在所有5个前沿模型都得出相同结论的328项主张中,各判决之间的分布:6数据1,000项索赔-最新的现实世界用户提交给事实核查平台,通过了下面排除项下列出的每个资格过滤器。这些索赔的日期均不早于2026年2月15日。
除非另有说明,否则本页面上的每个指标都使用此集合作为分母;使用不同分母的表(例如G.
判决中严格超过3/5边境多数的主张)将其列明。出处这些说法被提交给事实核查平台Lenz。我们选择这个文集是因为它代表了有机的现实世界事实核查请求,而不是精心策划的基准项目。伦茨自己对每项主张的判断并未用于本分析--本文仅衡量前沿模型的分歧,而不是伦茨与前沿。
索赔正常化原子_声明CSV中的字段不是用户的原始提交。这是Lenz框架步骤的输出,该步骤去除了情感语言和偏见,并将输入提炼成一个以提交日期为基础的中立、可测试的命题。前沿模型是