AI 见闻
精选· 重要性 5/5

Qwen2.5-Math:开源数学大模型新标杆,支持中英文与工具推理

Qwen Team Blog··约 7 分钟阅读
中文导读

阿里云发布Qwen2.5-Math系列模型,在数学推理能力上大幅超越前代及多数闭源模型,并首次在开源数学模型中支持工具集成推理(TIR),显著提升复杂计算与符号操作能力。

GitHub Hugging Face ModelScope Discord🚨 Qwen2.5-Math 主要支持通过 CoT 和 TIR 解决英文和中文数学问题。我们不建议将此系列模型用于其他任务。

介绍一个月前,我们发布了 Qwen 家族的第一个数学 LLM 系列——Qwen2-Math。

今天,我们对其进行了升级,并开源了 Qwen2.5-Math 系列,包括基础模型 Qwen2.5-Math-1.5B/7B/72B、指令微调模型 Qwen2.5-Math-1.5B/7B/72B-Instruct 以及数学奖励模型 Qwen2.5-Math-RM-72B。

与仅支持使用思维链(CoT)解决英文数学问题的 Qwen2-Math 系列不同,Qwen2.5-Math 系列扩展为同时支持 CoT 和工具集成推理(TIR)来解决中英文数学问题。

与 Qwen2-Math 系列模型相比,Qwen2.5-Math 系列模型在 CoT 下的中英文数学基准测试中取得了显著的性能提升。

虽然 CoT 在增强 LLM 的推理能力方面至关重要,但它在实现计算精度和处理复杂数学或算法推理任务(例如求二次方程的根或计算矩阵的特征值)方面面临挑战。TIR 可以进一步提高模型在精确计算、符号操作和算法操作方面的能力。

Qwen2.5-Math-1.5B/7B/72B-Instruct 在使用 TIR 的 MATH 基准上分别达到了 79.7、85.3 和 87.8 分。

Qwen2.5-Math:基础模型Qwen2-Math 和 Qwen2.5-Math 的整体专业化流程如上图所示。

在训练 Qwen2-Math 基础模型后,我们通过三个主要途径将其升级为 Qwen2.5-Math 模型:利用 Qwen2-Math-72B-Instruct 模型合成额外的优质数学预训练数据。

从多个召回周期的网络来源、书籍和代码中聚合更多高质量的数学数据,尤其是中文数据。利用 Qwen2.5 系列基础模型进行参数初始化,该模型展现出更强大的语言理解、代码生成和文本推理能力。

最终,我们为 Qwen2.5-Math-1.5B/7B/72B 的预训练构建了 Qwen Math Corpus v2,保持 4K 的上下文长度。

与用于 Qwen2-Math 训练的 Qwen Math Corpus v1 相比,Qwen Math Corpus v2 的总 token 数从 700B 增加到超过 1T。

我们在三个广泛使用的英文数学基准 GSM8K、MATH 和 MMLU-STEM 上评估了 Qwen2.5-Math 基础模型。此外,我们还评估了三个中文数学基准:CMATH、高考数学填空和高考数学问答。

所有评估均使用少样本思维链提示进行测试。与 Qwen2-Math-1.5B/7B/72B 相比,Qwen2.5-Math-1.5B/7B/72B 在所有基准上都取得了显著改进。

例如,Qwen2.5-Math-1.5B/7B/72B 在 MATH 上分别提升了 5.4、5.0、6.3 分,在高考数学问答上分别提升了 4.4、12.2、19.8 分。

Qwen2.5-Math-Instruct:指令微调模型与 Qwen2-Math-Instruct 类似,我们基于 Qwen2.5-Math-72B 训练了一个数学专用奖励模型 Qwen2.5-Math-RM-72B。

该 RM 用于通过拒绝采样构建 SFT 数据,并在 SFT 之后用于基于组相对策略优化(GRPO)的强化学习。

在 Qwen2.5-Math-Instruct 的开发过程中,我们使用 Qwen2-Math-Instruct 模型和 Qwen2.5-Math-RM-72B 进行额外迭代,以在拒绝采样期间进一步提高响应质量。

与 Qwen2-Math 的后训练相比,我们进一步为 Qwen2.5 的后训练引入了中英文的 TIR 数据和 SFT 数据。我们在英文和中文的数学基准上评估了 Qwen2.5-Math-Instruct。

除了 GSM8K 和 MATH 等广泛使用的基准外,我们还引入了更具挑战性的考试来全面检验 Qwen2.5-Math-Instruct 的能力,例如 OlympiadBench、CollegeMath、GaoKao、AIME2024 和 AMC2023。

对于中文数学基准,我们使用 CMATH、高考(2024 年中国高考)和 CN Middle School 24(2024 年中国中考)。

我们在零样本设置下报告所有基准的 Greedy、Maj@8 和 RM@8 性能,但多项选择基准(包括 MMLU STEM 以及高考和 CN Middle School 24 中的多项选择题)采用 5 样本设置。

Qwen2.5-Math-72B-Instruct 模型在英文和中文上分别平均领先 Qwen2-Math-72B-Instruct 模型 4.4 和 6.1 分,成为目前可用的最佳开源数学模型。

旗舰模型 Qwen2.5-Math-72B-Instruct 显著优于开源模型和领先的闭源模型(例如 GPT-4o、Gemini Math-Specialized 1.5 Pro)。在 RM@8 的 TIR 设置下,MATH 上取得了 92.9 的高分。

借助来自 72B 模型的合成预训练和监督微调数据,Qwen2.5-Math-7B-Instruct 在性能上超越了 Qwen2-Math-Instruct 72B。在 CoT 和 TIR 设置下,其 MATH 得分分别为 83.6 和 85.3。

即使是我们最小的 1.5B 模型,在使用 Python 解释器时,MATH 得分也达到约 80,优于该领域的大多数当前模型。

在 AIME 2024 和 AMC 2023 等更复杂的数学竞赛评估中,Qwen2.5-Math-Instruct 在 Greedy、Maj@64、RM@64 和 RM@256 等各种设置下也表现良好。

在 Qwen2.5-Math-RM-72B 的支持下,Qwen2.5-Math-1.5B-Instruct 在 CoT 模式下使用 RM@256 成功解决了 AMC 2023 上 40 个问题中的 29 个。

此外,Qwen2.5-Math-72B-Instruct 在 TIR 模式下几乎获得满分,解决了几乎所有问题。

在极其困难的 AIME 2024 基准上,Claude 3 Opus、GPT-4 Turbo 和 Gemini 1.5 Pro 仅能解决 30 个问题中的 1 或 2 个。

相比之下,Qwen2.5-Math-72B-Instruct 在 Greedy 解码 CoT 模式下解决了 9 个问题,在 TIR 模式下解决了 12 个问题。

借助 RM,Qwen2.5-Math-7B-Instruct 甚至能解决多达 21 个问题,进一步展示了 Qwen2.5-Math-Instruct 出色的数学问题解决能力。

去污染去污染对于确保无偏的模型性能评估至关重要。遵循之前的工作 Qwen2,我们使用 13-gram 匹配来排除可能受污染的训练样本。为了提高匹配过程的准确性,我们执行文本归一化,移除无关的标点符号和符号。

为了进一步减少假阴性,特别是对于常见的数学表达式,我们引入了一个额外标准:最长公共子序列的比率必须超过 0.6 才认为样本受污染。对于预训练数据,我们针对 GSM8K 和 MATH 等数据集过滤可能受污染的样本。

在处理后训练数据(包括 SFT 数据、RM 训练数据和 RL 查询集)时,我们排除所有已报告评估数据集中任何可能受污染的问题或解决方案。

这些评估数据集包括 GSM8K、MATH、Minerva Math、Gaokao 2023 En、Olympiad Bench、College Math、MMLU STEM、GaoKao、CMATH、CN Middle School 24、

AIME 24 和 AMC 23。在分析受污染样本时,我们发现一些现有的训练数据集(例如 MATH 训练数据集)包含很大一部分与测试数据集中的问题概念或结构高度相似的问题。尽管这些变体并非完全重复,但它们可能会损害我们评估的完整性。

因此,我们继续将这些样本从训练语料库中排除。

演示我们在 Qwen-Agent 中开发了一个支持 TIR 模式的演示,允许在本地运行代码以体验 Qwen2.5-Math 的工具集成推理能力。此外,我们在 Hugging Face 和 ModelScope 中提供了一个多模态数学演示。

该 WebUI

原文出处
Qwen2.5-Math: The world's leading open-sourced mathematical LLMs

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读