精选· 重要性 5/5

Qwen2.5-VL发布：旗舰视觉语言模型，支持长视频与智能体

Qwen Team Blog·超过 1 年前·约 6 分钟阅读

中文导读

Qwen团队发布Qwen2.5-VL系列视觉语言模型，包括3B、7B和72B三种尺寸，在图像识别、文档解析、视频理解和智能体能力上显著提升，72B模型在多项基准上达到领先水平。

QWEN CHAT GITHUB HUGGING FACE MODELSCOPE DISCORD我们发布了Qwen2.5-VL，这是Qwen系列新的旗舰视觉语言模型，也是从之前Qwen2-VL的重大飞跃。

要体验最新模型，欢迎访问Qwen Chat并选择Qwen2.5-VL-72B-Instruct。此外，我们在Hugging Face和ModelScope上开源了3种尺寸的基础模型和指令模型，包括3B、7B和72B。

主要功能包括：视觉理解：Qwen2.5-VL不仅擅长识别常见物体（如花、鸟、鱼、昆虫），还能高度胜任分析图像中的文本、图表、图标、图形和布局。智能体能力：Qwen2.5-VL直接作为视觉智能体，能够推理并动态操控工具，支持电脑和手机操作。

理解长视频并捕捉事件：Qwen2.5-VL可以理解超过1小时的视频，并且新增了通过定位相关视频片段来捕捉事件的能力。多种格式的视觉定位：Qwen2.5-VL可以通过生成边界框或点来准确定位图像中的物体，并为坐标和属性提供稳定的JSON输出。

生成结构化输出：对于发票、表单、表格等扫描数据，Qwen2.5-VL支持其内容的结构化输出，有利于金融、商业等领域的使用。

性能我们使用SOTA模型以及类似尺寸的最佳模型来评估我们的模型。就旗舰模型Qwen2.5-VL-72B-Instruct而言，它在涵盖领域和任务的一系列基准测试中取得了有竞争力的性能，包括大学水平问题、数学、文档理解、通用问答、视频理解和视觉智能体。

值得注意的是，Qwen2.5-VL在理解文档和图表方面具有显著优势，并且无需针对特定任务微调即可作为视觉智能体使用。

在较小模型方面，Qwen2.5-VL-7B-Instruct在多项任务上优于GPT-4o-mini，而面向边缘AI的Qwen2.5-VL-3B甚至优于我们之前版本Qwen2-VL的7B模型。

模型能力1. 全球图像识别Qwen2.5-VL显著增强了通用图像识别能力，将图像类别扩展到超大规模。它不仅包括植物、动物、名山大川地标，还包括影视剧IP以及种类繁多的产品。

这些景点包括：- 左上：吉萨大金字塔- 右上：中国长城- 左下：自由女神像- 右下：秦始皇兵马俑2. 精确物体定位Qwen2.

5-VL利用边界框和基于点的表示进行定位，支持分层定位和标准化JSON输出。这种增强的定位能力为视觉推理奠定了基础。

[{"bbox_2d":[341,258,397,360],"label":"motorcyclist","sub_label":"not wearing helmet"},{"bbox_2d":[212,332,274,448],"label":

"motorcyclist",

"sub_label":"not wearing helmet"},{"bbox_2d":[66,124,112,198],"label":"motorcyclist","sub_label":"not wearing helmet"},{"bbox_2d":[5,

235,63,320],"label":"motorcyclist","sub_label":"wearing helmet"}]3. 增强的文本识别与理解Qwen2.5-VL将OCR识别能力提升到了新水平，增强了多场景、多语言、多方向的文本识别和文本定位性能。

此外，在信息提取方面也显著增强，以满足资质审核、金融业务等领域日益增长的数字化和智能化需求。4. 强大的文档解析Qwen2.5-VL设计了一种独特的文档解析格式，称为QwenVL HTML格式，它基于HTML提取布局信息。

QwenVL HTML可以在各种场景下进行文档解析，例如杂志、研究论文、网页，甚至手机截图。<html><body><h1 data-bbox="879 283 1605 348">Qwen2.

5 Technical Report</h1><p data-bbox="1124 406 1360 456"></p><address class="author"><p>Qwen Team</p></address><div class="image" data-bb

ox="778 491 850 541"><img data-bbox="778 491 850 541"/></div><p data-bbox="885 491 1460 541">https:

//huggingface.co/Qwen</p><div class="image" data-bbox="778 541 850 589"><img data-bbox="778 541 850 589"/></div><p data-bbox="885 541 17

08 589">https:

//modelscope.cn/organization/qwen</p><div class="image" data-bbox="792 589 850 639"><img data-bbox="792 589 850 639"/></div><p data-bbox

="885 589 1584 639">https:

//github.com/QwenLM/Qwen2.5</p><h2 data-bbox="1143 681 1344 733">Abstract</h2><p data-bbox="434 785 2050 1252">在本报告中，我们介绍了Qwen2.5，

这是一个全面的大型语言模型（LLM）系列，旨在满足多样化需求。与之前的版本相比，Qwen2.5在预训练和后训练阶段都得到了显著改进。在预训练方面，我们将高质量预训练数据集从之前的7万亿tokens扩展到18万亿tokens。

这为常识、专业知识和推理能力提供了坚实基础。在后训练方面，我们实施了包含超过100万样本的复杂监督微调，以及多阶段强化学习，包括离线学习DPO和在线学习GRPO。

后训练技术显著增强了对人类偏好的对齐，并显著改善了长文本生成、结构化数据分析和指令遵循。</p><p data-bbox="434 1262 2050 1587">为了有效处理多样化的用例，我们推出了配置丰富的Qwen2.5 LLM系列。

开源模型包括基础模型和指令微调模型，参数规模为0.5B、1.5B、3B、7B、14B、32B和72B。还提供了指令微调模型的量化版本。超过100个模型可以从Hugging Face Hub、ModelScope和Kaggle访问。

此外，对于托管解决方案，专有模型目前包括两个混合专家（MoE）变体：Qwen2.5-Turbo和Qwen2.5-Plus，两者均可从阿里云模型工作室获取。

</p><p data-bbox="434 1587 2050 2052">Qwen2.5在评估语言理解、推理、数学、编码、人类偏好对齐等广泛基准上展示了顶级性能。

具体来说，开源旗舰模型Qwen2.5-72B-Instruct优于许多开源和专有模型，并与最先进的开源模型Llama-3-405B-Instruct（规模约为其5倍）相比具有竞争力。

Qwen2.5-Turbo和Qwen2.5-Plus在提供卓越成本效益的同时，分别与GPT-4o-mini和GPT-4o竞争。</p>

此外，作为基础，Qwen2.5模型在训练专用模型方面发挥了重要作用，例如Qwen2.5-Math、Qwen2.5-Coder、QwQ和多模态模型。

</p><div class="image" data-bbox="408 2275 2086 2800"><img data-bbox="408 2275 2086 2800"/></div><p data-bbox="289 2864 2202 3058">图1：

在Qwen系列的迭代开发中，数据扩展发挥了至关重要的作用。Qwen2.5利用18万亿tokens进行预训练，展示了Qwen系列中最先进的能力，特别是在领域专业知识方面，强调了规模和混合在增强模型能力方面的重要性。

</p></body></html>5. 增强的视频理解能力Qwen2.5-VL的视频理解能力全面升级。在时间处理方面，我们引入了动态帧率（FPS）训练和绝对时间编码技术。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读