关闭引导
腾讯宣布混元文生图大模型开源
2024-05-14 16:20:04
广州日报新花城

5月14日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face平台及Github上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。

这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。升级后的混元文生图大模型采用了与 sora 一致的DiT架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。

评测数据显示,最新的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型,是目前效果最好的开源文生图模型;整体能力属于国际领先水平。

据介绍,升级后的腾讯混元文生图大模型采用了全新的DiT架构(DiT,即Diffusion With Transformer),这也是Sora和 Stable Diffusion 3 的同款架构和关键技术,是一种基于Transformer架构的扩散模型。

在DiT架构之上,腾讯混元团队在算法层面优化了模型的长文本理解能力,能够支持最多 256字符的内容输入,达到行业领先水平。同时,在算法层面创新实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,从而达到更满意的效果。

评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果,相比前代提升超过 20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。

据了解,目前,腾讯混元文生图能力,已经广泛被用于素材创作、商品合成、游戏出图等多项业务及场景中。

腾讯文生图负责人芦清林表示:“腾讯混元文生图的研发思路就是实用,坚持从实践中来,到实践中去。此次把最新一代模型完整开源出来,是希望与行业共享腾讯在文生图领域的实践经验和研究成果,丰富中文文生图开源生态,共建下一代视觉生成开源生态,推动大模型行业加速发展。”

 

文/广州日报新花城记者:文静

图/广州日报新花城记者:文静

广州日报新花城编辑:龙嘉丽


@广州日报 版权所有 转载需经授权