Luma AI发布Uni-1:全球首款自回归图像生成模型,挑战扩散范式霸权

2026-03-25 20:58 👁 阅读

2026年3月26日,Luma Labs正式发布全新图像生成模型Uni-1,成为全球首个采用纯自回归Transformer架构同步生成文本提示与像素级图像的开源大模型。与当前主流的Stable Diffusion、DALL·E 3等基于扩散机制的图像生成范式不同,Uni-1将图像建模为‘像素序列’,通过逐token预测方式完成端到端生成,在RiseBench推理基准测试中达到92.7分(SOTA),人类偏好评估胜率达78.4%,显著超越同参数量扩散模型。该模型支持76种精细视觉风格控制(如‘赛博朋克胶片颗粒’‘宋代青绿山水绢本’),并首创‘多参考图时空对齐’技术,允许用户上传2–4张构图、光照、主体各异的参考图,模型自动提取共性语义并生成风格融合的新图像,已在建筑可视化与游戏原画领域落地验证。

Uni-1的底层创新在于其重构了视觉tokenization范式:摒弃传统VQ-VAE或Diffusion tokenizer,转而采用Luma自研的PixelFormer编码器,将图像压缩为16×16分辨率的128维向量序列,每个向量对应一个‘视觉词元(Visuon)’,再经12层稀疏注意力Transformer解码生成。实测表明,该设计使模型在长尾场景(如手部细节、文字识别、镜面反射)的保真度提升53%,且单次生成耗时仅为扩散模型的1/3。更值得关注的是,Uni-1已预留视频与音频扩展接口,官方确认将在Q2推出Uni-1V(视频版)与Uni-1A(音频版),构建真正意义上的‘Uni系列’全模态原生架构。

业界普遍认为,Uni-1的发布或将引发生成式AI底层范式的‘第二次迁移’。扩散模型虽在2022–2025年占据绝对主导,但其采样步数多、可控性弱、训练成本高等缺陷日益凸显;而自回归路径虽曾因计算复杂度被弃用,但在MoE稀疏化、FlashAttention-3等新技术加持下已实现性能逆转。斯坦福HAI研究院指出:‘当生成质量、速度与可控性三者首次达成帕累托最优,范式切换就不再是学术讨论,而是商业必然。’目前,Adobe Firefly与Canva均已宣布启动Uni-1技术适配,预计2026年内将有超200款专业设计工具完成集成。