9 月 10 日消息,腾讯昨日宣布混元图像模型 2.1 上新开源,支持原生 2K 生图和中英文原生输入。

腾讯还同步开源了“PromptEnhancer 文本改写模型”,输入“画一只可爱的猫”,会自动补全“橘色短毛猫趴在格子桌,爪边放饼干,水彩风”;支持中英文双向转换,用中文说“画带‘Dream’的星空蛋糕”,也能精准呈现,避免“表达模糊”。
混元图像模型 2.1 支持长达 1k tokens 的复杂语义超长 prompt,支持多主体分别描述与精确生成。
混元图像模型 2.1 对图像中文字的渲染和场景细节的把控更为稳定,减少了常见的文字错误与理解偏差。
混元图像模型 2.1 还支持生成各种风格,如真实感人物、漫画与搪胶手办等。
混元图像模型 2.1 还有以下亮点:
- 视觉-语言多模态编码器,更好地理解场景描述、人物动作和细节需求。
- 多语言的 ByT5 文本编码器,增强模型的文字渲染能力。
- 结构化 caption 提供多层次的语义信息,大幅提升模型在复杂语义上的响应能力。
- 创新性引入 OCR agent 和 IP RAG,补齐通用 VLM captioner 在密集文本和世界知识描述短板。
- 文生图模型:单双流网络架构,17B 模型参数。
- Refiner 模型:采用类似图生图的条件生成结构,能显著减少畸形,同时进一步提升图像的质感和清晰度。
- 32 倍压缩率 VAE:dit 模型 token 输入数极大降低,对齐 VAE 与 dinov2 特征空间, 训练难度降低。2K 图生成耗时与同类模型 1K 图生成耗时持平。
- 多分辨率的 repa loss:用于加速模型收敛
1AI附混元图像模型 2.1 开源地址如下:
https://github.com/Tencent-Hunyuan/HunyuanImage-2.1