导读
8月5日凌晨,阿里巴巴通义千问团队宣布开源其首个图像生成基础模型Qwen-Image,这一基于20亿参数的多模态扩散变换器(MMDiT)模型在复杂文本渲染和精确图像编辑领域实现重大突破。
在社交媒体上,一张由Qwen-Image生成的宫崎骏风格动漫图片引发热议——店铺牌匾上的“云存储”“云计算”“云模型”字样清晰可辨,连主角手上的阿里云标识都分毫毕现。
另一组展示中,典雅中式厅堂悬挂的对联“义本生知人机同道善思新”与“通云赋智乾坤启数高志远”,不仅文字准确无误,书法笔触的细节也栩栩如生。
文字编辑|宋雨涵
1
突破文生图瓶颈
MMDiT架构的三大创新
长期以来,文字渲染一直是AI图像生成的痛点。Stable Diffusion生成的菜单价格缺失,Midjourney输出的海报英文字母错位,这些问题暴露了行业的技术短板。
Qwen-Image通过创新的MMDiT架构(多模态扩散变换器) 一举攻克了这个难题。
该架构包含三大技术创新:
多模态混合设计:底层特征提取采用CNN捕捉文字局部结构,高层语义理解切换Transformer建立全局关联,使中文部首组合准确率提升31%。
动态尺度注意力机制:针对小字号模糊问题,建立字体大小与特征粒度的动态映射关系,处理8号字时的边缘清晰度比传统方法提升2.4倍。
双语编码器联合训练:通过共享注意力权重实现跨语言特征交互,确保同一提示词下,中英文风格统一。
在ChineseWord基准测试中,Qwen-Image的中文准确率达到89%,较同类模型提升47个百分点,这一飞跃式进步重新定义了行业标准。
这些创新点使得Qwen-Image在文生图的过程中无论是面对更小文字还是更多文字,或者是中英双语的情况下都可以从容应对。
可以看到阿里官方晒出的照片,生成海报也是游刃有余:

2
技术指标全面领先
一致性的图像编辑能力
除了在文本处理方面的优势,Qwen-Image在通用图像生成和图像编辑领域也具备广泛的应用能力:
多风格图像生成:支持从照片级写实场景到印象派绘画,从动漫风格到极简设计等多种艺术风格,能够灵活响应各类创意提示,满足不同的创作需求。
最近爆火的吉卜力风格简直是不在话下,除此之外官方还晒出了不同风格的生成图像如下:
此外在图像编辑方面:提供风格迁移、增删改、细节增强、文字编辑、人物姿态调整等多种编辑操作,让普通用户无需专业技能,也能实现专业级的图像编辑效果。
目前,Qwen-Image已在魔搭社区、Hugging Face和GitHub等平台全面开源,并提供了详细的技术报告和演示示例。
普通用户可通过访问QwenChat选择“图像生成”功能,亲身体验这款强大模型。
免费在线体验地址:https://chat.qwen.ai/c/guest
开源策略的实施将显著降低视觉内容创作的技术门槛。对于缺乏大规模研发资源的中小企业和个人开发者而言,这是一个重要的技术赋能机会。
通过开源模型的二次开发和定制化改进,更多创新应用有望在此基础上涌现。
随着文本渲染问题的解决,AIGC正从艺术创作迈向标准化生产。当文本渲染不再成为障碍,AI图像生成将更广泛地应用于商业场景。
三、文生图领域市场格局
Qwen-Image的开源策略已在开发者社区引发热潮。模型在GitHub发布仅数小时即收获上千星标,Hugging Face平台上的体验请求激增。
腾讯同日公开MixGRPO图像生成框架,训练时间缩短近50%。全球科技巨头围绕生成式AI的竞赛已进入技术深水区。
现在市场上主流的文生图大模型分为两大阵营:
以Stable Diffusion 3.5和Qwen – Image为代表的开源模型,注重技术创新和开放共享。Stable Diffusion 3.5的MMDiT混合架构和ControlNet精准控制技术,为图像生成提供了丰富的控制手段;Qwen – Image的多模态扩散变换器(MMDiT)和中文渲染SOTA技术,则在中文场景的应用中表现出色。开源模式使得广大开发者和研究者能够参与其中,共同推动技术的进步。
闭源模型则凭借其独特的技术优势和商业策略,在市场中占据特定份额。Midjourney V7的Omni Reference多图融合技术,使其在艺术创作中能够生成极具创意的作品;Flux系列的超高分辨率输出和流匹配训练技术,满足了影视级图像生成的需求;Seedream 3.0的分辨率自适应采样和快速生成能力,在广告设计和社交媒体素材生成方面表现出色;Grok Imagine的“Spicy Mode”支持NSFW内容,吸引了小众用户群体。闭源模型往往由企业独立研发和维护,通过技术壁垒来保持竞争优势。
可以看出文生图模型已形成 “开源控细节,闭源追效率”的双轨格局。Qwen-Image以中文场景破局,Seedream以速度革新,Flux凭品质占市场,而Midjourney持续定义AI艺术上限。未来胜负手在于:能否平衡开源生态、实时性、跨模态能力三大维度,同时降低算力民主化门槛。
结语:
Qwen-Image的开源,不仅丰富了通义千问系列的模型生态,也为开发者和用户在图像生成与编辑领域提供了更强大的工具,有望推动文生图领域的一步发展与应用落地。希望在不久的将来可以看到AI生图可以优化到景深与拟人化层面。