Qwen2.5-VL发布:旗舰视觉语言模型,支持长视频与智能体
Qwen团队发布Qwen2.5-VL系列视觉语言模型,包括3B、7B和72B三种尺寸,在图像识别、文档解析、视频理解和智能体能力上显著提升,72B模型在多项基准上达到领先水平。
QWEN CHAT GITHUB HUGGING FACE MODELSCOPE DISCORD我们发布了Qwen2.5-VL,这是Qwen系列新的旗舰视觉语言模型,也是从之前Qwen2-VL的重大飞跃。
要体验最新模型,欢迎访问Qwen Chat并选择Qwen2.5-VL-72B-Instruct。此外,我们在Hugging Face和ModelScope上开源了3种尺寸的基础模型和指令模型,包括3B、7B和72B。
主要功能包括:视觉理解:Qwen2.5-VL不仅擅长识别常见物体(如花、鸟、鱼、昆虫),还能高度胜任分析图像中的文本、图表、图标、图形和布局。智能体能力:Qwen2.5-VL直接作为视觉智能体,能够推理并动态操控工具,支持电脑和手机操作。
理解长视频并捕捉事件:Qwen2.5-VL可以理解超过1小时的视频,并且新增了通过定位相关视频片段来捕捉事件的能力。多种格式的视觉定位:Qwen2.5-VL可以通过生成边界框或点来准确定位图像中的物体,并为坐标和属性提供稳定的JSON输出。
生成结构化输出:对于发票、表单、表格等扫描数据,Qwen2.5-VL支持其内容的结构化输出,有利于金融、商业等领域的使用。
性能我们使用SOTA模型以及类似尺寸的最佳模型来评估我们的模型。就旗舰模型Qwen2.5-VL-72B-Instruct而言,它在涵盖领域和任务的一系列基准测试中取得了有竞争力的性能,包括大学水平问题、数学、文档理解、通用问答、视频理解和视觉智能体。
值得注意的是,Qwen2.5-VL在理解文档和图表方面具有显著优势,并且无需针对特定任务微调即可作为视觉智能体使用。
在较小模型方面,Qwen2.5-VL-7B-Instruct在多项任务上优于GPT-4o-mini,而面向边缘AI的Qwen2.5-VL-3B甚至优于我们之前版本Qwen2-VL的7B模型。
模型能力1. 全球图像识别Qwen2.5-VL显著增强了通用图像识别能力,将图像类别扩展到超大规模。它不仅包括植物、动物、名山大川地标,还包括影视剧IP以及种类繁多的产品。
这些景点包括:- 左上:吉萨大金字塔- 右上:中国长城- 左下:自由女神像- 右下:秦始皇兵马俑2. 精确物体定位Qwen2.
5-VL利用边界框和基于点的表示进行定位,支持分层定位和标准化JSON输出。这种增强的定位能力为视觉推理奠定了基础。
[{"bbox_2d":[341,258,397,360],"label":"motorcyclist","sub_label":"not wearing helmet"},{"bbox_2d":[212,332,274,448],"label":
"motorcyclist",
"sub_label":"not wearing helmet"},{"bbox_2d":[66,124,112,198],"label":"motorcyclist","sub_label":"not wearing helmet"},{"bbox_2d":[5,
235,63,320],"label":"motorcyclist","sub_label":"wearing helmet"}]3. 增强的文本识别与理解Qwen2.5-VL将OCR识别能力提升到了新水平,增强了多场景、多语言、多方向的文本识别和文本定位性能。
此外,在信息提取方面也显著增强,以满足资质审核、金融业务等领域日益增长的数字化和智能化需求。4. 强大的文档解析Qwen2.5-VL设计了一种独特的文档解析格式,称为QwenVL HTML格式,它基于HTML提取布局信息。
QwenVL HTML可以在各种场景下进行文档解析,例如杂志、研究论文、网页,甚至手机截图。<html><body><h1 data-bbox="879 283 1605 348">Qwen2.
5 Technical Report</h1><p data-bbox="1124 406 1360 456"></p><address class="author"><p>Qwen Team</p></address><div class="image" data-bb
ox="778 491 850 541"><img data-bbox="778 491 850 541"/></div><p data-bbox="885 491 1460 541">https:
//huggingface.co/Qwen</p><div class="image" data-bbox="778 541 850 589"><img data-bbox="778 541 850 589"/></div><p data-bbox="885 541 17
08 589">https:
//modelscope.cn/organization/qwen</p><div class="image" data-bbox="792 589 850 639"><img data-bbox="792 589 850 639"/></div><p data-bbox
="885 589 1584 639">https:
//github.com/QwenLM/Qwen2.5</p><h2 data-bbox="1143 681 1344 733">Abstract</h2><p data-bbox="434 785 2050 1252">在本报告中,我们介绍了Qwen2.5,
这是一个全面的大型语言模型(LLM)系列,旨在满足多样化需求。与之前的版本相比,Qwen2.5在预训练和后训练阶段都得到了显著改进。在预训练方面,我们将高质量预训练数据集从之前的7万亿tokens扩展到18万亿tokens。
这为常识、专业知识和推理能力提供了坚实基础。在后训练方面,我们实施了包含超过100万样本的复杂监督微调,以及多阶段强化学习,包括离线学习DPO和在线学习GRPO。
后训练技术显著增强了对人类偏好的对齐,并显著改善了长文本生成、结构化数据分析和指令遵循。</p><p data-bbox="434 1262 2050 1587">为了有效处理多样化的用例,我们推出了配置丰富的Qwen2.5 LLM系列。
开源模型包括基础模型和指令微调模型,参数规模为0.5B、1.5B、3B、7B、14B、32B和72B。还提供了指令微调模型的量化版本。超过100个模型可以从Hugging Face Hub、ModelScope和Kaggle访问。
此外,对于托管解决方案,专有模型目前包括两个混合专家(MoE)变体:Qwen2.5-Turbo和Qwen2.5-Plus,两者均可从阿里云模型工作室获取。
</p><p data-bbox="434 1587 2050 2052">Qwen2.5在评估语言理解、推理、数学、编码、人类偏好对齐等广泛基准上展示了顶级性能。
具体来说,开源旗舰模型Qwen2.5-72B-Instruct优于许多开源和专有模型,并与最先进的开源模型Llama-3-405B-Instruct(规模约为其5倍)相比具有竞争力。
Qwen2.5-Turbo和Qwen2.5-Plus在提供卓越成本效益的同时,分别与GPT-4o-mini和GPT-4o竞争。</p>
此外,作为基础,Qwen2.5模型在训练专用模型方面发挥了重要作用,例如Qwen2.5-Math、Qwen2.5-Coder、QwQ和多模态模型。
</p><div class="image" data-bbox="408 2275 2086 2800"><img data-bbox="408 2275 2086 2800"/></div><p data-bbox="289 2864 2202 3058">图1:
在Qwen系列的迭代开发中,数据扩展发挥了至关重要的作用。Qwen2.5利用18万亿tokens进行预训练,展示了Qwen系列中最先进的能力,特别是在领域专业知识方面,强调了规模和混合在增强模型能力方面的重要性。
</p></body></html>5. 增强的视频理解能力Qwen2.5-VL的视频理解能力全面升级。在时间处理方面,我们引入了动态帧率(FPS)训练和绝对时间编码技术。