字节开源轻量原生统一多模态AI模型Lance:3B参数实现图像/视频全栈理解与生成

2026-05-22 20:37 👁 28094

5月22日,字节跳动正式开源全新多模态大模型Lance,引发AI基础模型领域高度关注。该模型激活参数量仅30亿(3B),却首次在训练阶段即实现图像理解、视频理解、图像生成、视频生成及跨模态编辑五大能力的原生统一架构设计——摒弃行业主流的‘理解+生成’模块拼接范式,转而构建单一模型通吃X2T(任意模态到文本)、X2I(任意模态到图像)、X2V(任意模态到视频)三类核心输出任务。技术路径上,Lance采用动态稀疏激活机制与时空联合tokenization策略,在同等算力下推理吞吐提升2.3倍,单卡A100即可完成4K视频帧级生成微调,显著降低多模态AI的部署门槛。

据IT之家当日报道,Lance已在字节内部多个产品线完成灰度验证:抖音“AI剪辑助手”接入后,用户平均成片耗时从8.6分钟压缩至92秒;懂车帝“实车视频问答”系统准确率跃升至91.7%,较前代多模型串联方案提升14.2个百分点。尤为关键的是,Lance不依赖外部视觉编码器(如SigLIP或EVA-CLIP),全部视觉表征均通过端到端自监督预训练习得,大幅削弱对标注数据与闭源组件的路径依赖。

行业影响层面,Lance的发布标志着轻量化多模态模型正从“能力补丁”转向“基座替代”。此前业界普遍认为,视频理解与生成需百亿级以上参数支撑,而Lance以3B规模达成SOTA级视频时序建模能力(在Kinetics-700视频动作识别榜达86.4% top-1准确率),直接挑战了“更大即更强”的模型军备逻辑。多位模型架构师指出,其时空联合注意力机制可能催生新一代视频基础模型标准范式。

未来展望方面,字节同步宣布启动Lance生态计划:开放模型权重、训练代码及全量合成视频数据集(含120万段高质量短视频),并设立千万美元专项基金支持教育、科研与公益场景的轻量多模态应用开发。业内普遍预期,Lance将加速推动AI内容生产从专业工作室下沉至个体创作者,尤其在短视频、数字人直播、AIGC教育课件等长尾场景中形成规模化替代。值得注意的是,该模型未启用任何商业化API接口,开源即商用,明确释放“普惠型多模态基座”战略信号——这或将倒逼头部厂商重新评估其闭源多模态服务的定价模型与技术护城河。