
9月28日,腾讯混元发布并开源原生多模态生图模型“混元图像3.0(HunyuanImage 3.0)”,参数规模高达80B。这是首个开源工业级原生多模态生图模型,也是目前效果最好、参数量最大的开源生图模型,效果对标业界头部闭源模型。
用户访问电脑端腾讯混元官网(https://hunyuan.tencent.com/image)即可体验混元图像3.0,模型将逐步上线元宝;同时模型权重和加速版本已在Github、Hugging Face等开源社区发布,企业和个人开发者可直接下载并免费使用。
混元图像3.0具备常识并能够利用知识进行推理;同时语义理解准确度高,并具备极致美学质感,能生成真实的高质感图片;可以解析千字级别的复杂语义,生成长文本文字,整体图像生成效果业界领先。

原生多模态指在技术架构上,通过一个模型完成文字、图片、视频与音频等多个模态的输入与输出,而非通过多个模型的组合实现图文理解、图片生成等任务。混元图像3.0是业界首个开源工业级原生多模态生图模型。
这意味着,混元图像3.0不仅拥有生图模型的画画能力,还具备语言模型的思考能力和常识。它就像一个自带“大脑”的画家,可以利用智能去思考图像的布局、构图、笔触,利用世界知识去推理常识性的画面。
比如,用户只需要输入提示词:“生成一个月全食的四格科普漫画”,模型就可以自主生成完整的月全食科普,无需用户描述逐格内容。

同时,混元图像3.0语义理解能力和美学质感也得到了大幅提升,可以实现对用户指令的精确生成,包括图片中的文字生成,都能较好地实现。
比如输入“你是一个小红书穿搭博主,请根据模特穿搭生成一张封面图片,要求: 1.画面左侧是模特的OOTD全身图;2.右侧是衣服的展示,分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包 风格:实物摄影,要求真实,有氛围感,秋季美拉德色系穿搭”。在这个提示词下,混元图像3.0可以准确地把左侧博主的穿搭分解成右侧单独的衣物。

再如有复杂文字要求的海报类需求,混元图像3.0也可以很好地生成。海报商品图中,西红柿水珠新鲜饱满、红润欲滴、质感诱人,具备高品质拍摄质感,同时海报中顶部、底部、点缀等各处的文字都能顺利呈现,画面层次清晰,整体配色与布局十分和谐,兼具美观与实用价值。

这张体现有月亮、企鹅和月饼的中秋节创意海报,混元3.0也能很好地完成。

可以看到,混元图像3.0不仅能生成复杂文本、复杂漫画、表情包,还能生成生动有趣的科普插画。这些能力能够大幅提升插画师、设计师等视觉创作者的效率,原来可能需要画几个小时的漫画,现在可能只需要几分钟就能实现;同时,没有美术功底和设计经验的内容创作者,也能创作出更丰富、生动的视觉内容。行业与学界研究者、企业与个人开发者,均可基于混元图像3.0进行应用研发或二次开发,制作相关衍生模型。
在文生图领域,当前学术界和业界正在从传统DiT转向原生多模态模型架构。当前业界已经有一些开源的模型,但都是小模型,偏向于学术研究和实验阶段,生图效果也离工业界最优效果有较大差距。
作为原生多模态开源模型,混元图像3.0需要对模型整体架构进行重构,以支持多任务的训练,并实现多任务效果之间的相互促进。混元图像3.0以Hunyuan-A13B为基础,基于50亿量级的图文对,视频帧,图文交织数据和6T的语料数据进行了多模态生成、理解和LLM的混合训练,使得模型能够充分融合多任务效果;实现超强的语义理解能力,能够响应复杂的长文本,生成长文本文字,同时具有LLM的世界知识,能够利用世界知识进行推理。
腾讯混元团队透露,混元图像3.0目前的版本仅开放了文生图能力,图生图、图像编辑、多轮交互等版本将于后续发布。
一直以来,腾讯混元在图像生成领域持续深耕,曾发布首个开源中文原生DiT架构图像大模型“混元DiT”、开源原生2K模型“混元图像2.1”,以及业界首个工业级实时生图模型——混元图像2.0。
同时,腾讯混元坚定拥抱开源,陆续开放了多种尺寸语言模型,图像、视频、3D等完整多模态生成能力和工具集插件,提供接近商业模型性能的开源基座。图像、视频衍生模型数量总数达到3000个,混元3D系列模型社区下载量超过230万,已成为全球最受欢迎的3D开源模型。