精选· 重要性 4/5

Qwen-Image-Edit：更高质量和效率的图像编辑模型发布

Qwen Team Blog·10 个月前·约 5 分钟阅读

中文导读

Qwen团队推出基于20B参数Qwen-Image的图像编辑模型Qwen-Image-Edit，支持语义与外观编辑、精确双语文本编辑，在多项基准上达到SOTA性能。

QWEN CHAT GITHUB HUGGING FACE MODELSCOPE DISCORD我们很高兴推出Qwen-Image-Edit，这是Qwen-Image的图像编辑版本。

基于我们的20B Qwen-Image模型，Qwen-Image-Edit成功将Qwen-Image独特的文本渲染能力扩展到图像编辑任务，实现了精确的文本编辑。

此外，Qwen-Image-Edit同时将输入图像送入Qwen2.5-VL（用于视觉语义控制）和VAE编码器（用于视觉外观控制），从而具备语义和外观编辑能力。要体验最新模型，请访问Qwen Chat并选择“图像编辑”功能。

主要特点：语义和外观编辑：Qwen-Image-Edit支持低级视觉外观编辑（如添加、删除或修改元素，要求图像其他区域完全不变）和高级视觉语义编辑（如IP创作、对象旋转和风格迁移，允许整体像素变化同时保持语义一致性）。

精确文本编辑：Qwen-Image-Edit支持双语（中文和英文）文本编辑，可直接在图像中添加、删除和修改文本，同时保留原始字体、大小和样式。

强劲基准表现：在多个公开基准上的评估表明，Qwen-Image-Edit在图像编辑任务中达到了最先进（SOTA）性能，使其成为图像编辑的强大基础模型。

展示Qwen-Image-Edit的一大亮点在于其强大的语义和外观编辑能力。语义编辑是指在保留原始视觉语义的同时修改图像内容。

为了直观展示这一能力，我们以Qwen的吉祥物——水豚为例：可以看出，尽管编辑后图像中的大部分像素与输入图像（最左侧图像）不同，但水豚的角色一致性得到了完美保留。Qwen-Image-Edit强大的语义编辑能力使得轻松、多样地创作原创IP内容成为可能。

此外，在Qwen Chat上，我们围绕16种MBTI人格类型设计了一系列编辑提示。利用这些提示，我们成功创建了一套基于吉祥物水豚的MBTI主题表情包，轻松扩展了IP的影响力和表达力。此外，新颖视角合成是语义编辑的另一个关键应用场景。

如下面两张示例图片所示，Qwen-Image-Edit不仅可以将物体旋转90度，还能进行完整的180度旋转，让我们直接看到物体的背面：语义编辑的另一个典型应用是风格迁移。例如，给定一张输入肖像，Qwen-Image-Edit可以轻松将其转换为吉卜力工作室等各种艺术风格。

这一能力在虚拟化身创建等应用中具有重要价值：除了语义编辑，外观编辑是另一个常见的图像编辑需求。外观编辑强调在添加、删除或修改特定元素时，保持图像的某些区域完全不变。下图展示了在场景中添加招牌的案例。

如图所示，Qwen-Image-Edit不仅成功插入了招牌，还生成了相应的倒影，展现出对细节的非凡关注。下面是另一个有趣的例子，演示了如何从图像中去除细发丝和其他小物体。此外，图像中特定字母“n”的颜色可以修改为蓝色，从而实现对特定元素的精确编辑。

外观编辑在调整人物背景或更换衣物等场景中也有广泛应用。下面三张图片分别展示了这些实际用例。Qwen-Image-Edit的另一个突出特点是其精确的文本编辑能力，这源于Qwen-Image在文本渲染方面的深厚积累。

如下所示，以下两个案例生动展示了Qwen-Image-Edit在编辑英文文本方面的强大表现：Qwen-Image-Edit还可以直接编辑中文海报，不仅能修改大标题文本，还能精确调整小而复杂的文本元素。

最后，让我们通过一个具体的图像编辑示例，演示如何使用链式编辑方法逐步纠正Qwen-Image生成的书法作品中的错误：在这幅作品中，有几个中文字符存在生成错误。我们可以利用Qwen-Image-Edit逐步纠正它们。

例如，在原始图像上绘制边界框标记需要纠正的区域，指示Qwen-Image-Edit修复这些特定区域。这里，我们希望字符“稽”正确写入红色框中，字符“亭”在蓝色区域中准确呈现。然而，实际上“稽”字较为生僻，模型未能一步正确纠正。

“稽”的右下部分应为“旨”而非“日”。此时，我们可以用红色框进一步突出“日”部分，指示Qwen-Image-Edit微调该细节并将其替换为“旨”。是不是很神奇？通过这种链式、逐步的编辑方法，我们可以连续纠正字符错误，直到达到所需最终结果。

最终，我们成功获得了完全正确的《兰亭序》书法版本！总而言之，我们希望Qwen-Image-Edit能够进一步推动图像生成领域，真正降低视觉内容创作的技术门槛，并激发更多创新应用。

原文出处

本文为机器翻译辅以 AI 润色，仅供参考。原始事实以原文为准。

相关阅读