AI 见闻
精选· 重要性 4/5

Qwen2.5-VL-32B:更智能、更轻量的视觉语言模型

Qwen Team Blog··约 3 分钟阅读
中文导读

Qwen2.5-VL-32B是阿里云基于强化学习优化的视觉语言模型,在32B参数规模上实现了与人类偏好更一致的响应、更强的数学推理和细粒度图像理解能力,性能超越同规模竞品甚至更大模型。

QWEN CHAT GITHUB HUGGING FACE MODELSCOPE DISCORD介绍今年一月底,我们推出了Qwen2.5-VL系列模型,受到了社区的广泛关注和积极反馈。

在Qwen2.5-VL系列的基础上,我们继续使用强化学习优化模型,并在Apache 2.0许可下开源了备受喜爱的32B参数规模的新VL模型——Qwen2.5-VL-32B-Instruct。

与之前发布的Qwen2.5-VL系列模型相比,这款32B VL模型的特点如下:- 响应与人类偏好更加一致:调整了输出风格,以提供更详细、格式更好的答案,使其更符合人类偏好。- 数学推理:解决复杂数学问题的准确性显著提高。

- 细粒度图像理解和推理:在图像解析、内容识别和视觉逻辑推理等任务中增强了准确性和详细分析。

性能通过与同规模最先进(SoTA)模型进行广泛基准测试,Qwen2.5-VL-32B-Instruct已证明优于基线模型,例如Mistral-Small-3.1-24B和Gemma-3-27B-IT,甚至超过了更大的Qwen2-VL-72B-Instruct。

值得注意的是,它在MMMU、MMMU-Pro和MathVista等多模态任务中取得了显著优势,这些任务专注于复杂的多步骤推理。

在MM-MT-Bench(一个强调主观用户体验评估的基准测试)上,Qwen2.5-VL-32B-Instruct以显著优势超越了其前身Qwen2-VL-72B-Instruct。

除了在视觉能力上表现出色外,Qwen2.5-VL-32B-Instruct在同规模纯文本能力上也达到了顶级性能。演示案例要判断你是否能在13:00之前到达110公里外的地方,我们需要分析所提供的信息:- 当前时间:12:00。

- 目的地距离:110公里。- 卡车限速:限速标志显示卡车最高速度为100公里/小时。

逐步分析:1. 计算所需旅行时间旅行时间的计算公式为:\[ \text{时间} = \frac{\text{距离}}{\text{速度}} \]已知:- 距离 = 110公里- 最高速度 = 100公里/小时代入数值:

\[ \text{时间} = \frac{110 \text{ 公里}}{100 \text{ 公里/小时}} = 1.1 \text{ 小时} \]2. 将时间转换为小时和分钟1.1小时相当于:

\[ 1 \text{ 小时} + 0.1 \times 60 \text{ 分钟} = 1 \text{ 小时} + 6 \text{ 分钟} = 1 \text{ 小时} 6 \text{ 分钟} \]3. 确定到达时间如果你在12:00出发,

行驶110公里需要1小时6分钟,那么你的到达时间为:\[ 12:00 + 1 \text{ 小时} 6 \text{ 分钟} = 13:06 \]4. 与目标时间比较你想在13:00之前到达。

但根据计算,你将在13:06到达,这晚于13:00。

结论:由于卡车限速为100公里/小时,无法在13:00之前到达110公里外的地方。因此,最终答案是:\[ \boxed{\text{No}} \]下一步虽然Qwen2.5-VL-32B专注于通过强化学习优化主观体验和数学推理——在“快速思考”的范式内运作。

我们的下一个研究方向将优先考虑长期有效的推理过程,以推动视觉模型在解决高度复杂的多步骤视觉推理任务方面的边界。

引用如果你觉得我们的模型有帮助,欢迎引用:@article{Qwen2.5-VL,title={Qwen2.5-VL Technical Report},author={Bai,Shuai and Chen,Keqin and Liu,Xuejing and Wang,

Jialin and Ge,

Wenbin and Song,Sibo and Dang,Kai and Wang,Peng and Wang,Shijie and Tang,Jun and Zhong,Humen and Zhu,Yuanzhi and Yang,Mingkun and Li,

Zhaohai and Wan,

Jianqiang and Wang,Pengfei and Ding,Wei and Fu,Zheren and Xu,Yiheng and Ye,Jiabo and Zhang,Xi and Xie,Tianbao and Cheng,Zesen and Zhang,

Hang and Yang,Zhibo and Xu,Haiyang and Lin,Junyang},journal={arXiv preprint arXiv:2502.13923},year={2025}}

原文出处
Qwen2.5-VL-32B: Smarter and Lighter

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读