PS技术哪家强?阿里通义来帮忙,Qwen-Image-Edit,AI图像编辑神器!

导读

中文海报中的细小文字精准替换、书法作品逐字修正、品牌IP角色多风格转换,这些曾让专业设计师耗费数小时的操作,如今通过一句指令即可完成。

8月19日凌晨,阿里通义千问团队开源了其最新图像编辑模型Qwen-Image-Edit,这是继月初发布Qwen-Image后,在多模态AI领域的又一重磅突破。该模型基于200亿参数的Qwen-Image进一步训练,首次实现了语义控制与外观编辑的双重能力。

在数字内容爆发式增长的时代,Qwen-Image-Edit的诞生标志着AI图像处理从生成向精准编辑演进的关键转折。它不仅继承了Qwen-Image在中文文本渲染上的优势,更将这一能力扩展至编辑领域。

文字编辑|宋雨涵

1

核心能力

Qwen-Image-Edit模型的优势

中英文双语高精度编辑,中文处理能力尤为卓越

Qwen-Image-Edit在文本渲染能力上实现了全面升级,无论是英文还是中文,均能实现高保真度的图像编辑。它支持直接在图像中添加、删除或修改文本内容,同时完美保留原有字体、字号及风格。在中文场景下,其优势更为显著,可轻松应对多行布局、段落级文本生成及书法对联等复杂排版需求,单字渲染准确率高达97.29%,显著领先于Seedream3.0(53.48%)和GPT Image1(68.37%)。

Qwen-Image-Edit还可以直接编辑中文海报,不仅可以修改大标题文本,可以对细小复杂的文本元素进行精确调整。

双重编码机制,实现语义与外观的精准协同

Qwen-Image-Edit的核心创新在于其双重编码机制。在图像编辑过程中,输入图像会同时经过Qwen2.5-VL模型进行语义编码,提取高层场景与对象关系特征;同时通过变分自编码器(VAE)进行重建编码,保留底层视觉细节如纹理与色彩。

这一机制使模型在执行复杂编辑指令时,既能准确理解语义意图,又能保持视觉保真度。

该技术广泛应用于IP创作、风格迁移及新视角合成等场景,表现优异。

多任务训练范式,编辑一致性行业标杆

通过增强的多任务训练方法,Qwen-Image-Edit支持文本到图像(T2I)、图像到图像(I2I)及文本引导图像编辑(TI2I)等多种任务。在GEdit、ImgEdit和GSO等权威图像编辑基准测试中,该模型均取得SOTA性能,综合评分分别达到7.56(英文)和7.52(中文),超越GPT Image1和FLUX.1Kontext等同类模型。

其独特的“链式编辑”能力尤为突出。在书法纠错场景中,模型可通过多轮迭代逐步修正错误字符,同时保持整体风格一致,显著提升创作效率并降低专业视觉内容制作的门槛。

在这幅作品中,有不少汉字存在生成错误。我们可以借助Qwen-Image-Edit,逐步修复它们。例如,可以在原图中用方框标注出需要修改的区域,指示Qwen-Image-Edit针对这些部分进行修正。这里,我们希望红框内正确地写出“稽”字,蓝色区域正确地写出“亭”字。

但实际操作中,“稽”字较为生僻,模型未能一次性完成修改。“稽”的右下角应为“旨”而非“日”。此时,我们可以进一步用红框圈出“日”的部分,让Qwen-Image-Edit对该细节进行微调,将其改为“旨”。

通过这种链式、逐步的编辑方式,我们可以持续修正错字,直至获得理想的最终效果。

2

开源生态布局

加速中国AI生态进化

阿里为何选择全面开放图像编辑核心技术?

当各大科技巨头纷纷将先进AI模型闭源商业化,阿里选择将这一突破性技术以Apache 2.0协议全面开源。开发者可通过Hugging Face、ModelScope等平台免费获取60GB完整模型权重。

这一决策背后是阿里对中文互联网内容生态的前瞻布局。随着短视频和跨平台内容创作需求激增,专业级图像编辑能力正在从设计师专属工具转变为大众刚需。

专业创作民主化,图像编辑不再是设计师专属技能

Qwen-Image-Edit的多功能特性使其适用于多种场景。在海报与广告设计领域,能生成具有视觉冲击力的宣传海报,支持复杂文本排版和风格迁移;IP内容创作中,可基于品牌吉祥物生成主题表情包,保持角色一致性;教育与培训方面,能快速生成高质量插图和图表,提升课程内容吸引力;游戏与影视行业,可支持角色设计、背景生成和新视角合成,优化资产开发流程。

Apache 2.0许可证的商业友好性,意味着电商企业可用其批量生成营销素材,自媒体可快速制作封面,而无需支付高额版权费用。这种开放性策略,与字节跳动此前开源的图像模型形成直接竞争,加速中国AI生态进化。

结语:

Qwen-Image-Edit的问世,不仅进一步凸显了Qwen在文本渲染与图像生成深度融合方面的差异化竞争力,更为创意设计、广告营销、影视动漫等领域提供了高效实用的AI图像编辑解决方案。展望未来,随着模型功能的持续优化与生态体系的拓展,其应用范围有望延伸至多模态内容创作、数字资产规模化生产等更广阔的场景。