Luma AI发布Uni-1:全球首款自回归像素级图像生成模型,颠覆扩散范式
2026年3月26日,美国AI视觉公司Luma Labs正式开源新一代图像生成模型Uni-1,首次采用纯自回归Transformer架构同步建模文本语义与像素序列,彻底摒弃当前主流的扩散模型(Diffusion)技术路线。Uni-1在RiseBench推理基准测试中达到92.4分(SOTA),人类偏好调研显示其在构图合理性、风格一致性与细节保真度三项指标上领先Stable Diffusion 3与DALL·E 3达17.6个百分点。该模型支持76种精细视觉风格(含水墨、赛博朋克、敦煌壁画等文化特异性风格),并首创‘Multi-Reference Pixel Control’机制,允许用户上传2–4张参考图,通过像素级注意力引导生成结果,实测在电商主图重绘、建筑效果图迭代等专业场景中编辑成功率提升至89%。
Uni-1的核心突破在于将图像视为‘像素语言’进行逐token生成——每帧图像被编码为16384个离散像素token(对应256×256分辨率),模型通过因果掩码预测下一像素,而非迭代去噪。这一设计带来三大优势:其一,推理过程完全确定性,无采样随机性,确保工业级输出稳定性;其二,显存占用降低58%,单卡A100即可完成1024×1024高清图生成;其三,天然支持增量编辑与局部重绘,响应延迟压缩至320ms以内。Luma已开放Uni-1的轻量化蒸馏版Uni-1-Lite供开发者免费商用。
业界普遍认为,Uni-1的发布预示着生成式视觉技术正从‘概率逼近’迈向‘结构可控’新阶段。扩散模型虽在艺术创作领域占据优势,但在制造业CAD渲染、医疗影像增强、自动驾驶仿真等对确定性、可解释性与低延迟有严苛要求的领域长期受限。Uni-1的像素级建模能力为上述场景提供了全新技术路径。值得关注的是,Luma同步宣布将于2026年Q3推出Uni-1-V(视频版)与Uni-1-A(音频版),构建真正统一的‘Uni-Modal’多模态生成底座,此举或将重塑AIGC工具链竞争格局。