Qwen-Image-Edit:更高质量和效率的图像编辑模型发布
Qwen团队推出基于20B参数Qwen-Image的图像编辑模型Qwen-Image-Edit,支持语义与外观编辑、精确双语文本编辑,在多项基准上达到SOTA性能。
QWEN CHAT GITHUB HUGGING FACE MODELSCOPE DISCORD我们很高兴推出Qwen-Image-Edit,这是Qwen-Image的图像编辑版本。
基于我们的20B Qwen-Image模型,Qwen-Image-Edit成功将Qwen-Image独特的文本渲染能力扩展到图像编辑任务,实现了精确的文本编辑。
此外,Qwen-Image-Edit同时将输入图像送入Qwen2.5-VL(用于视觉语义控制)和VAE编码器(用于视觉外观控制),从而具备语义和外观编辑能力。要体验最新模型,请访问Qwen Chat并选择“图像编辑”功能。
主要特点:语义和外观编辑:Qwen-Image-Edit支持低级视觉外观编辑(如添加、删除或修改元素,要求图像其他区域完全不变)和高级视觉语义编辑(如IP创作、对象旋转和风格迁移,允许整体像素变化同时保持语义一致性)。
精确文本编辑:Qwen-Image-Edit支持双语(中文和英文)文本编辑,可直接在图像中添加、删除和修改文本,同时保留原始字体、大小和样式。
强劲基准表现:在多个公开基准上的评估表明,Qwen-Image-Edit在图像编辑任务中达到了最先进(SOTA)性能,使其成为图像编辑的强大基础模型。
展示Qwen-Image-Edit的一大亮点在于其强大的语义和外观编辑能力。语义编辑是指在保留原始视觉语义的同时修改图像内容。
为了直观展示这一能力,我们以Qwen的吉祥物——水豚为例:可以看出,尽管编辑后图像中的大部分像素与输入图像(最左侧图像)不同,但水豚的角色一致性得到了完美保留。Qwen-Image-Edit强大的语义编辑能力使得轻松、多样地创作原创IP内容成为可能。
此外,在Qwen Chat上,我们围绕16种MBTI人格类型设计了一系列编辑提示。利用这些提示,我们成功创建了一套基于吉祥物水豚的MBTI主题表情包,轻松扩展了IP的影响力和表达力。此外,新颖视角合成是语义编辑的另一个关键应用场景。
如下面两张示例图片所示,Qwen-Image-Edit不仅可以将物体旋转90度,还能进行完整的180度旋转,让我们直接看到物体的背面:语义编辑的另一个典型应用是风格迁移。例如,给定一张输入肖像,Qwen-Image-Edit可以轻松将其转换为吉卜力工作室等各种艺术风格。
这一能力在虚拟化身创建等应用中具有重要价值:除了语义编辑,外观编辑是另一个常见的图像编辑需求。外观编辑强调在添加、删除或修改特定元素时,保持图像的某些区域完全不变。下图展示了在场景中添加招牌的案例。
如图所示,Qwen-Image-Edit不仅成功插入了招牌,还生成了相应的倒影,展现出对细节的非凡关注。下面是另一个有趣的例子,演示了如何从图像中去除细发丝和其他小物体。此外,图像中特定字母“n”的颜色可以修改为蓝色,从而实现对特定元素的精确编辑。
外观编辑在调整人物背景或更换衣物等场景中也有广泛应用。下面三张图片分别展示了这些实际用例。Qwen-Image-Edit的另一个突出特点是其精确的文本编辑能力,这源于Qwen-Image在文本渲染方面的深厚积累。
如下所示,以下两个案例生动展示了Qwen-Image-Edit在编辑英文文本方面的强大表现:Qwen-Image-Edit还可以直接编辑中文海报,不仅能修改大标题文本,还能精确调整小而复杂的文本元素。
最后,让我们通过一个具体的图像编辑示例,演示如何使用链式编辑方法逐步纠正Qwen-Image生成的书法作品中的错误:在这幅作品中,有几个中文字符存在生成错误。我们可以利用Qwen-Image-Edit逐步纠正它们。
例如,在原始图像上绘制边界框标记需要纠正的区域,指示Qwen-Image-Edit修复这些特定区域。这里,我们希望字符“稽”正确写入红色框中,字符“亭”在蓝色区域中准确呈现。然而,实际上“稽”字较为生僻,模型未能一步正确纠正。
“稽”的右下部分应为“旨”而非“日”。此时,我们可以用红色框进一步突出“日”部分,指示Qwen-Image-Edit微调该细节并将其替换为“旨”。是不是很神奇?通过这种链式、逐步的编辑方法,我们可以连续纠正字符错误,直到达到所需最终结果。
最终,我们成功获得了完全正确的《兰亭序》书法版本!总而言之,我们希望Qwen-Image-Edit能够进一步推动图像生成领域,真正降低视觉内容创作的技术门槛,并激发更多创新应用。
本文为机器翻译辅以 AI 润色,仅供参考。原始事实以原文为准。