Qwen2-Math:超越GPT-4o的数学专用大语言模型系列
Qwen团队发布Qwen2-Math系列数学专用大语言模型,在多个数学基准上超越GPT-4o、Claude-3.5等闭源模型,展示了开源模型在数学推理领域的重大突破。
GitHub Hugging Face ModelScope Discord🚨 该模型主要支持英语。我们将很快发布双语(英语和中文)数学模型。介绍在过去的一年里,我们投入了大量精力研究和增强大型语言模型的推理能力,特别关注它们解决算术和数学问题的能力。
今天,我们很高兴地介绍Qwen2系列中一系列专门针对数学的大型语言模型:Qwen2-Math和Qwen2-Math-Instruct-1.5B/7B/72B。
Qwen2-Math是基于Qwen2 LLM构建的一系列专业数学语言模型,其数学能力显著优于开源模型甚至闭源模型(例如GPT-4o)。我们希望Qwen2-Math能够为社区解决复杂的数学问题做出贡献。
我们根据一系列数学基准评估了我们的数学专用模型。下面的结果表明,我们最大的数学专用模型Qwen2-Math-72B-Instruct优于最先进的模型,包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和Llama-3.1-405B。
Qwen2-Math:基础模型Qwen2-Math的基础模型使用Qwen2-1.5B/7B/72B进行初始化,然后在精心设计的数学专用语料库上进行预训练。该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由Qwen2合成的数学预训练数据。
我们在三个广泛使用的英语数学基准GSM8K、Math和MMLU-STEM上评估了Qwen2-Math基础模型。此外,我们还评估了三个中文数学基准CMATH、高考数学填空和高考数学问答。所有评估均采用少样本思维链提示进行测试。
Qwen2-Math-Instruct:指令调优模型我们首先基于Qwen2-Math-72B训练了一个数学专用奖励模型。然后,我们将这个密集的奖励信号与一个指示模型是否正确回答的二进制信号相结合。
该组合信号用作通过拒绝采样构建SFT数据的监督信号,也用于SFT后使用组相对策略优化(GRPO)的强化学习。我们在英语和中文的数学基准上评估了Qwen2-Math-Instruct。
除了GSM8K和Math等广泛使用的基准外,我们还纳入了更具挑战性的考试,以全面检查Qwen2-Math-Instruct的能力,例如OlympiadBench、CollegeMath、GaoKao、AIME2024和AMC2023。
对于中文数学基准,我们使用CMATH、高考(2024年中国高考)和CN Middle School 24(2024年中国中考)。
我们在零样本设置下的所有基准上报告了Greedy、Maj@8和RM@8的表现,但多项选择基准(包括MMLU STEM以及高考和CN Middle School 24中的多项选择题)采用5样本设置。
Qwen2-Math-Instruct在同尺寸模型中实现了最佳性能,RM@8优于Maj@8,尤其是在1.5B和7B模型中。这证明了我们的数学奖励模型的有效性。
在AIME 2024和AMC 2023等更复杂的数学竞赛评估中,Qwen2-Math-Instruct在各种设置下也表现出色,包括Greedy、Maj@64、RM@64和RM@256。案例研究这里我们列出了一些测试案例,其中包括一些IMO数学问题。
从实验结果和案例研究中,我们发现Qwen2-Math能够解决简单的数学竞赛问题。请随意点击可展开的模块查看案例!所有解决方案均由我们的模型生成,未经修改。请注意,我们不保证过程中陈述的正确性。
2002年IMO Shortlist问题问题最小的正整数$t$是多少,使得存在整数$x_1,x_2,\ldots,x_t$满足$$ x_1^3+x_2^3+\ldots+x_t^3=2002^{2002},
$$Qwen2-Math-72B-Instruct解答为了确定最小的正整数$t$,
使得存在整数$x_1,x_2,\ldots,x_t$满足方程$$ x_1^3 + x_2^3 + \cdots + x_t^3 = 2002^{2002},$$我们首先分析立方体及其和的性质。
我们需要找到最小的$t$,使得$t$个立方体的和等于$2002^{2002}$。首先,我们注意到$2002$可以分解为质因数:$$ 2002 = 2 \times 7 \times 11 \times 13. $$
$$因此,$$ 2002^{2002} = (2 \times 7 \times 11 \times 13)^{2002} = 2^{2002} \times 7^{2002} \times 11^{2002} \times 13^{2002}. $$接下来,
我们考虑立方体模9的性质。立方体模9只能同余于$0, 1$或$-1$。
这是因为:$$ \begin{aligned} 0^3 &\equiv 0 \pmod{9},\\\ 1^3 &\equiv 1 \pmod{9},\\\ 2^3 &\equiv 8 \equiv -1 \pmod{9},
\\\ 3^3 &\equiv 27 \equiv 0 \pmod{9},
\\\ 4^3 &\equiv 64 \equiv 1 \pmod{9},\\\ 5^3 &\equiv 125 \equiv -1 \pmod{9},\\\ 6^3 &\equiv 216 \equiv 0 \pmod{9},
\\\ 7^3 &\equiv 343 \equiv 1 \pmod{9},\\\ 8^3 &\equiv 512 \equiv -1 \pmod{9}. \end{aligned} $$现在,我们需要确定$2002^{2002} \mod 9$。
首先,我们求$2002 \mod 9$:$$ 2002 \div 9 = 222 \text{ 余 } 4 \quad \Rightarrow \quad 2002 \equiv 4 \pmod{9}. $$因此,
$$ 2002^{2002} \equiv 4^{2002} \pmod{9}. $$接下来,我们使用欧拉定理,该定理指出对于$\gcd(a,n) = 1$,有$a^{\phi(n)} \equiv 1 \pmod{n}$。
这里$\phi(9) = 6$,所以:$$ 4^6 \equiv 1 \pmod{9}. $$我们可以将指数$2002 \mod 6$化简:
$$ 2002 \div 6 = 333 \text{ 余 } 4 \quad \Rightarrow \quad 2002 \equiv 4 \pmod{6}. $$因此,
$$ 4^{2002} \equiv 4^4 \pmod{9}. $$$$ 4^4 = 256. $$最后,我们求$256 \mod 9$:
$$ 256 \div 9 = 28 \text{ 余 } 4 \quad \Rightarrow \quad 256 \equiv 4 \pmod{9}. $$因此,
$$ 2002^{2002} \equiv 4 \pmod{9}. $$我们需要找到最小的$t$,使得$t$个立方体的和模9同余于4。
立方体模9的可能和如下:$$ \begin{aligned} 0 &\equiv 0 \pmod{9},\\\ 1 &\equiv 1 \pmod{9},\\\ -1 &\equiv 8 \pmod{9},\\\ 1 + 1 &\equiv 2 \pmod{9},
\\\ 1 + (-1) &\equiv 0 \pmod{9},
\\\ -1 + (-1) &\equiv -2 \equiv 7 \pmod{9},\\\ 1 + 1 + 1 &\equiv 3 \pmod{9},\\\ 1 + 1 + (-1) &\equiv 1 \pmod{9},
\\\ 1 + (-1) + (-1) &\equiv -1 \equiv 8 \pmod{9},
\\\ -1 + (-1) + (-1) &\equiv -3 \equiv 6 \pmod{9},\\\ 1 + 1 + 1 + 1 &\equiv 4 \pmod{9}. \end{aligned} $$我们看到四个立方体的和可以模9同余于4。
因此,最小的$t$是4。所以,最小的正整数$t$,使得存在整数$x_1,x_2,\ldots,
x_t$满足$$ x_1^3 + x_2^3 + \cdots + x_t^3 = 2002^{2002} $$是$$ \boxed{4}. $$2022年IMO Shortlist问题问题对于正整数$n$,
我们用$s(n)$表示$n$的各位数字之和。设$P(x)=x^n+a_{n-1}x^{n-1}+\cdots+a_1x+a_0$是一个多项式,其中$n \geqslant 2$且对于所有$0 \leqslant i \leqslant n-1$,$a_i$是正整数。
是否可能对于所有正整数$k$,$s(k)$和$s(P(k))$具有相同的奇偶性?
Qwen2-Math-72B-Instruct解答为了确定是否可能对于所有正整数$k$,$s(k)$和$s(P(k))$具有相同的奇偶性,我们需要分析各位数字之和函数$s$和多项式$P(x)$的行为。
首先,回忆一下,一个数$k$的各位数字之和模2等价于$k \mod 2$。
这是因为以10为基数的$k$的各位数字之和与$k \mod 9$同余,并且由于$9 \equiv 1 \mod 2$,因此模2的各位数字之和与$k \mod 2$相同。
给定多项式$P(x) = x^n + a_{n-1}x^{n-1} + \cdots + a_1x + a_0$,我们需要确定对于任何正整数$k$,$P(k)$的奇偶性。具体来说,我们需要检查$P(k) \mod 2$是否与$k \mod 2$相同。
让我们考虑多项式模2:$$ P(x) \equiv x^n + a_{n-1}x^{n-1} + \cdots + a_1x + a_0 \mod 2. $$由于$a_i$是正整数,$a_i \mod 2$要么是0,要么是1。
令$b_i = a_i \mod 2$。然后我们可以重写多项式模