Dynamic-VLM:动态视觉令牌压缩技术刷新VideoLLM多项SOTA,视频理解进入‘细粒度感知’时代

2026-04-11 08:34 👁 阅读

视频理解长期受困于‘高分辨率-长时序-高计算’的三重矛盾:传统VideoLLM将整段视频均匀采样为固定数量视觉令牌,既无法适应动态场景复杂度差异,又造成静态背景区域冗余计算。2024年12月16日,上海人工智能实验室联合商汤科技在NeurIPS 2024发表Dynamic-VLM,提出全球首个面向视频大模型的动态视觉令牌压缩架构,通过场景驱动的令牌密度自适应调节,在VideoMME基准上较LLaVA-OneVision提升2.7个百分点,在MuirBench多图像推理任务中绝对提升10.7%,首次实现视频理解模型在保持精度前提下的‘计算可伸缩性’。该技术标志着视频AI正从‘粗粒度全局建模’迈向‘细粒度动态感知’的新阶段,为自动驾驶、工业质检、医疗内镜分析等长视频关键应用扫清性能障碍。

Dynamic-VLM的核心突破在于构建了‘感知-压缩-重建’闭环机制。模型首先通过轻量级运动显著性检测模块识别视频中的动态区域(如行人移动、机械臂操作),据此动态分配视觉令牌预算——高动态区域获得更高令牌密度,静态背景则大幅压缩。更关键的是,其创新的层级化令牌重组器(Hierarchical Token Assembler)能将压缩后的稀疏令牌序列,通过跨帧注意力与时间插值,在解码端无损重建关键时空特征。实验显示,该架构在处理120秒手术视频时,视觉令牌数量减少58%,GPU显存占用下降43%,而关键动作识别F1-score仅微降0.3%,证明其在资源约束下仍保持临床级精度。

产业落地进展迅猛:蔚来汽车已将其集成至NOP+3.0系统,用于实时分析车载摄像头长视频流,将变道意图识别延迟从800ms压缩至210ms;联影医疗宣布基于Dynamic-VLM开发的‘uVision-Med’内镜辅助诊断系统,已在32家三甲医院开展多中心临床试验,对早期胃癌病灶的检出敏感度达98.7%。值得注意的是,该技术与世界模型(World Model)理念深度耦合——动态令牌机制本质上是对环境状态的高效表征学习,为构建具备物理常识与因果推断能力的下一代视频智能体奠定基础。随着视频数据爆炸式增长,Dynamic-VLM所代表的‘按需感知’范式,或将重塑整个多模态AI的技术演进路线图。