AI 见闻
精选· 重要性 4/5

Qwen2.5-Omni:全能端到端多模态模型,看听说写样样精通

Qwen Team Blog··约 4 分钟阅读
中文导读

Qwen2.5-Omni 是 Qwen 系列的新旗舰端到端多模态模型,能同时处理文本、图像、音频和视频,并实时生成文本与自然语音,在多项基准中表现优异。

QWEN CHAT HUGGING FACE MODELSCOPE DASHSCOPE GITHUB PAPER DEMO DISCORD我们发布了 Qwen2.5-Omni,这是 Qwen 系列中全新的旗舰端到端多模态模型。

它专为全面的多模态感知而设计,可无缝处理文本、图像、音频和视频等多种输入,同时通过文本生成和自然语音合成提供实时流式响应。要试用最新模型,欢迎访问 Qwen Chat 并选择 Qwen2.5-Omni-7B。

该模型现已开放,可在 Hugging Face、ModelScope、DashScope 和 GitHub 上获取,技术文档详见我们的论文。通过我们的 Demo 体验交互功能,或加入我们的 Discord 进行讨论。

主要特点:全能新颖架构:我们提出了 Thinker-Talker 架构,这是一种端到端多模态模型,旨在感知包括文本、图像、音频和视频在内的多种模态,同时以流式方式生成文本和自然语音响应。

我们提出了一种新颖的位置嵌入,名为 TMRoPE(时间对齐多模态 RoPE),用于同步视频输入与音频的时间戳。实时语音与视频聊天:架构专为完全实时交互设计,支持分块输入和即时输出。

自然且稳健的语音生成:超越许多现有的流式和非流式替代方案,在语音生成中展现出卓越的稳健性和自然度。

跨模态的强劲性能:在与类似大小的单模态模型进行基准测试时,在所有模态中均表现出色。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并达到了与 Qwen2.5-VL-7B 相当的性能。

优秀的端到端语音指令跟随:Qwen2.5-Omni 在端到端语音指令跟随方面的表现与其文本输入的有效性相媲美,MMLU 和 GSM8K 等基准测试证明了这一点。架构Qwen2.5-Omni 采用 Thinker-Talker 架构。

Thinker 像大脑一样,负责处理和理解来自文本、音频和视频模态的输入,生成高级表示和相应的文本。Talker 像人的嘴巴一样,以流式方式接收 Thinker 产生的高级表示和文本,并流畅地输出离散的语音 token。

Thinker 是一个 Transformer 解码器,配有音频和图像编码器以促进信息提取。相比之下,Talker 被设计为双轨自回归 Transformer 解码器架构。

在训练和推理过程中,Talker 直接接收来自 Thinker 的高维表示,并共享 Thinker 的所有历史上下文信息。因此,整个架构作为一个统一的单一模型运行,实现了端到端的训练和推理。

性能我们对 Qwen2.5-Omni 进行了全面评估,与类似大小的单模态模型以及 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro 等闭源模型相比,它在所有模态中都表现出强劲的性能。

在需要集成多种模态的任务中,例如 OmniBench,Qwen2.5-Omni 达到了最先进的性能。

此外,在单模态任务中,它在语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)和语音生成(Seed-tts-eval 和主观自然度)等领域表现出色。

下一步是什么我们渴望听到您的反馈,并看到您使用 Qwen2.5-Omni 创造的创新应用。在不久的将来,我们的目标是增强模型遵循语音命令的能力,并改善视听协作理解。此外,我们还将努力整合更多模态,朝着全能模型迈进!

原文出处
Qwen2.5 Omni: See, Hear, Talk, Write, Do It All!

本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。

相关阅读