首个工业级原生多模态开源模型，腾讯混元发布新一代生图模型

9月28日，腾讯混元发布并开源原生多模态生图模型“混元图像3.0（HunyuanImage 3.0）”，参数规模高达80B。这是首个开源工业级原生多模态生图模型，也是目前效果最好、参数量最大的开源生图模型，效果对标业界头部闭源模型。

用户访问电脑端腾讯混元官网（https://hunyuan.tencent.com/image）即可体验混元图像3.0，模型将逐步上线元宝；同时模型权重和加速版本已在Github、Hugging Face等开源社区发布，企业和个人开发者可直接下载并免费使用。

混元图像3.0具备常识并能够利用知识进行推理；同时语义理解准确度高，并具备极致美学质感，能生成真实的高质感图片；可以解析千字级别的复杂语义，生成长文本文字，整体图像生成效果业界领先。

原生多模态指在技术架构上，通过一个模型完成文字、图片、视频与音频等多个模态的输入与输出，而非通过多个模型的组合实现图文理解、图片生成等任务。混元图像3.0是业界首个开源工业级原生多模态生图模型。

这意味着，混元图像3.0不仅拥有生图模型的画画能力，还具备语言模型的思考能力和常识。它就像一个自带“大脑”的画家，可以利用智能去思考图像的布局、构图、笔触，利用世界知识去推理常识性的画面。

比如，用户只需要输入提示词：“生成一个月全食的四格科普漫画”，模型就可以自主生成完整的月全食科普，无需用户描述逐格内容。

同时，混元图像3.0语义理解能力和美学质感也得到了大幅提升，可以实现对用户指令的精确生成，包括图片中的文字生成，都能较好地实现。

比如输入“你是一个小红书穿搭博主，请根据模特穿搭生成一张封面图片，要求： 1.画面左侧是模特的OOTD全身图；2.右侧是衣服的展示，分别是上衣深棕色夹克、下装黑色百褶短裙、棕色靴子、黑色包包风格：实物摄影，要求真实，有氛围感，秋季美拉德色系穿搭”。在这个提示词下，混元图像3.0可以准确地把左侧博主的穿搭分解成右侧单独的衣物。

再如有复杂文字要求的海报类需求，混元图像3.0也可以很好地生成。海报商品图中，西红柿水珠新鲜饱满、红润欲滴、质感诱人，具备高品质拍摄质感，同时海报中顶部、底部、点缀等各处的文字都能顺利呈现，画面层次清晰，整体配色与布局十分和谐，兼具美观与实用价值。

这张体现有月亮、企鹅和月饼的中秋节创意海报，混元3.0也能很好地完成。

可以看到，混元图像3.0不仅能生成复杂文本、复杂漫画、表情包，还能生成生动有趣的科普插画。这些能力能够大幅提升插画师、设计师等视觉创作者的效率，原来可能需要画几个小时的漫画，现在可能只需要几分钟就能实现；同时，没有美术功底和设计经验的内容创作者，也能创作出更丰富、生动的视觉内容。行业与学界研究者、企业与个人开发者，均可基于混元图像3.0进行应用研发或二次开发，制作相关衍生模型。

在文生图领域，当前学术界和业界正在从传统DiT转向原生多模态模型架构。当前业界已经有一些开源的模型，但都是小模型，偏向于学术研究和实验阶段，生图效果也离工业界最优效果有较大差距。

作为原生多模态开源模型，混元图像3.0需要对模型整体架构进行重构，以支持多任务的训练，并实现多任务效果之间的相互促进。混元图像3.0以Hunyuan-A13B为基础，基于50亿量级的图文对，视频帧，图文交织数据和6T的语料数据进行了多模态生成、理解和LLM的混合训练，使得模型能够充分融合多任务效果；实现超强的语义理解能力，能够响应复杂的长文本，生成长文本文字，同时具有LLM的世界知识，能够利用世界知识进行推理。

腾讯混元团队透露，混元图像3.0目前的版本仅开放了文生图能力，图生图、图像编辑、多轮交互等版本将于后续发布。

一直以来，腾讯混元在图像生成领域持续深耕，曾发布首个开源中文原生DiT架构图像大模型“混元DiT”、开源原生2K模型“混元图像2.1”，以及业界首个工业级实时生图模型——混元图像2.0。

同时，腾讯混元坚定拥抱开源，陆续开放了多种尺寸语言模型，图像、视频、3D等完整多模态生成能力和工具集插件，提供接近商业模型性能的开源基座。图像、视频衍生模型数量总数达到3000个，混元3D系列模型社区下载量超过230万，已成为全球最受欢迎的3D开源模型。

本文来源于DOIT传媒，文章内容仅供参考，不构成投资建议。