【太平洋科技快讯】5月16日,腾讯正式发布了其新一代AI图像生成模型——混元图像2.0(Hunyuan Image 2.0),该模型已在腾讯混元官方网站上线,并对外开放注册体验。
得益于超高压缩倍率的图像编解码器以及全新扩散架构,混元图像2.0参数量较前代提升了一个数量级,生图速度实现了指数级提升。在同类商业产品每张图推理速度需要5到10秒的情况下,混元图像2.0声称可实现毫秒级响应。这意味着用户可以一边输入文字指令或进行语音输入,一边实时看到图像生成,改变了传统“抽卡—等待—抽卡”的模式。
通过引入强化学习等算法以及大量人类美学知识对齐,该模型生成的图像更加细腻逼真,有效避免了AIGC图像中常见的“AI味”。在GenEval(Geneval Bench)上,混元图像2.0模型的准确率超过95%,远超其他同类模型。
混元图像2.0还带来了全新的实时绘画板功能,该功能基于模型的实时生图能力,用户在绘制线稿或调整参数时,预览区会同步生成上色效果,突破了传统“绘制-等待-修改”的线性流程。此外,实时绘画板还支持多图融合,用户可以上传多个草图,AI会自动协调透视与光影,按照提示词内容生成融合图像。而除了文字输入,混元图像2.0还支持语音输入,系统会将用户的语音自动转写为文字并即时生成图像。