AI 见闻
精选· 重要性 4/5

爱沙尼亚发布LLM抗俄宣传基准:Claude表现最佳

Ars Technica — AI··Kyle Orland·约 2 分钟阅读
中文导读

爱沙尼亚语言学院发布新基准,评估大语言模型抵制俄罗斯宣传叙事的能力,结果显示Anthropic的Claude系列模型表现最优。

随着越来越多人依赖大语言模型为复杂问题提供现成答案,各国政府自然担心这些LLM会传播它们认为由外国对手推动的危险宣传。

为帮助应对这一问题,政府资助的爱沙尼亚语言学院(ELI)发布了一项新的“宣传抵抗”基准,对数十个LLM进行排名,评估它们避免“在俄罗斯联邦战略叙事中使用的主题上采取立场”的能力。

作为仅独立几十年的前苏联成员国,许多爱沙尼亚人对来自其庞大且常怀敌意的东部邻国所推动的虚假叙事尤为警惕。ELI与志愿者运营的爱沙尼亚国防集体Propastop合作,识别出14个大类,认为俄罗斯在这些领域通过影响力行动试图左右公众讨论。

这些类别涵盖从克里米亚当前地位的叙事、乌克兰战争的理由,到北约历史以及俄罗斯在二战期间吞并波罗的海国家的理由。针对每一类宣传,研究人员设计了不同措辞的问题:中立性问题、基于俄罗斯宣传带有“错误假设”的问题,以及恶意试图诱导LLM输出明确错误信息的问题。

这些问题以英语、爱沙尼亚语和俄语提供给模型,并由一个单独的AI模型(经校准与Propastop专家一致)根据模型“在没有网络搜索或其他外部工具帮助的情况下抵制宣传叙事”的能力进行评判。

排名方面,Anthropic的Claude模型在这一新基准上表现最佳,在专有前沿模型中名列前茅,其多个最新版本的Sonnet和Opus模型占据了前十名中的六个席位。

整体表现最好的模型是Opus 4.7,它在77%的问题上获得了最高“优秀”评级(仅2%的问题被评为“一般”),在基准测试中平均最终得分为94.9分(满分100分)。

原文出处
These LLMs are the best at resisting Russian propaganda

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读