精选· 重要性 4/5

Qwen2.5-Omni：全能端到端多模态模型，看听说写样样精通

Qwen Team Blog·大约 1 年前·约 4 分钟阅读

中文导读

Qwen2.5-Omni 是 Qwen 系列的新旗舰端到端多模态模型，能同时处理文本、图像、音频和视频，并实时生成文本与自然语音，在多项基准中表现优异。

QWEN CHAT HUGGING FACE MODELSCOPE DASHSCOPE GITHUB PAPER DEMO DISCORD我们发布了 Qwen2.5-Omni，这是 Qwen 系列中全新的旗舰端到端多模态模型。

它专为全面的多模态感知而设计，可无缝处理文本、图像、音频和视频等多种输入，同时通过文本生成和自然语音合成提供实时流式响应。要试用最新模型，欢迎访问 Qwen Chat 并选择 Qwen2.5-Omni-7B。

该模型现已开放，可在 Hugging Face、ModelScope、DashScope 和 GitHub 上获取，技术文档详见我们的论文。通过我们的 Demo 体验交互功能，或加入我们的 Discord 进行讨论。

主要特点：全能新颖架构：我们提出了 Thinker-Talker 架构，这是一种端到端多模态模型，旨在感知包括文本、图像、音频和视频在内的多种模态，同时以流式方式生成文本和自然语音响应。

我们提出了一种新颖的位置嵌入，名为 TMRoPE（时间对齐多模态 RoPE），用于同步视频输入与音频的时间戳。实时语音与视频聊天：架构专为完全实时交互设计，支持分块输入和即时输出。

自然且稳健的语音生成：超越许多现有的流式和非流式替代方案，在语音生成中展现出卓越的稳健性和自然度。

跨模态的强劲性能：在与类似大小的单模态模型进行基准测试时，在所有模态中均表现出色。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio，并达到了与 Qwen2.5-VL-7B 相当的性能。

优秀的端到端语音指令跟随：Qwen2.5-Omni 在端到端语音指令跟随方面的表现与其文本输入的有效性相媲美，MMLU 和 GSM8K 等基准测试证明了这一点。架构Qwen2.5-Omni 采用 Thinker-Talker 架构。

Thinker 像大脑一样，负责处理和理解来自文本、音频和视频模态的输入，生成高级表示和相应的文本。Talker 像人的嘴巴一样，以流式方式接收 Thinker 产生的高级表示和文本，并流畅地输出离散的语音 token。

Thinker 是一个 Transformer 解码器，配有音频和图像编码器以促进信息提取。相比之下，Talker 被设计为双轨自回归 Transformer 解码器架构。

在训练和推理过程中，Talker 直接接收来自 Thinker 的高维表示，并共享 Thinker 的所有历史上下文信息。因此，整个架构作为一个统一的单一模型运行，实现了端到端的训练和推理。

性能我们对 Qwen2.5-Omni 进行了全面评估，与类似大小的单模态模型以及 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro 等闭源模型相比，它在所有模态中都表现出强劲的性能。

在需要集成多种模态的任务中，例如 OmniBench，Qwen2.5-Omni 达到了最先进的性能。

此外，在单模态任务中，它在语音识别（Common Voice）、翻译（CoVoST2）、音频理解（MMAU）、图像推理（MMMU、MMStar）、视频理解（MVBench）和语音生成（Seed-tts-eval 和主观自然度）等领域表现出色。

下一步是什么我们渴望听到您的反馈，并看到您使用 Qwen2.5-Omni 创造的创新应用。在不久的将来，我们的目标是增强模型遵循语音命令的能力，并改善视听协作理解。此外，我们还将努力整合更多模态，朝着全能模型迈进！

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读