腾讯混元图像2.0发布:毫秒级实时生成与超写实画质解析
5月16日,腾讯推出业界首个毫秒级响应的实时图像生成大模型——混元图像2.0(Hunyuan Image2.0)。此模型现已上线腾讯混元官网,注册后可供用户体验。其核心优势在于实时生成与高保真画质。

与先前版本相比,混元图像2.0的参数量显著扩大,结合创新的图像编解码技术及扩散架构,其生成速度超越当前行业领先模型。
尤其是在同类产品需要5至10秒才能完成一张图片推理的背景下,腾讯混元能够实现毫秒级响应,让用户在输入文字或语音的同时立即获得图像结果,彻底革新了传统的“抽卡—等待”流程。

除了速度,混元图像2.0在图像质量上也有显著提升,通过强化学习等多种算法及人类美学知识的引入,其生成的图像避免了人工智能生成图像的常见缺陷,具备较强的真实性、细致的细节及高实用性。
在图像生成领域的复杂文本指令理解评测基准GenEval上,混元图像2.0的准确率超过95%,远超其他同类模型。

提示词:人像摄影,爱因斯坦,背景是东方明珠,自拍视角
腾讯表示,混元图像2.0整合多模态大语言模型(MLLM)作为文本编码器,结合自研的结构化caption系统,可精确理解文本含义并准确生成期望的图像呈现。
即使在同一句话中包含多个隐含意义,系统也能逐一拆解并绘制出完整的视觉效果。

除了文字输入,混元图像2.0支持通过语音输入提示词,系统会自动将语音转换为文字,并基于识别结果即时生成图像,非常适合直播讲解和移动创作等场景。
用户还可以上传草图作为参考,模型能识别线稿的结构与构图,再结合提示词补全光影、材质及背景细节,从而快速扩展成完整的图像。
腾讯混元图像2.0生成的作品展示:

人像摄影风格

动物特写

复古摄影

动漫风格

真实人物风格
























