Dynamic-VLM:动态视觉令牌压缩架构刷新视频理解SOTA,VideoMME提升2.7%

2026-04-08 11:10 👁 阅读

2024年12月16日公开的Dynamic-VLM研究,针对当前视频大模型(VideoLLM)普遍存在的‘长视频处理低效’与‘高质量视频数据稀缺’双重瓶颈,提出一种轻量级、可学习的动态视觉令牌压缩机制,并同步构建首个面向复杂推理的合成视频问答数据集。该模型摒弃传统固定采帧+全局Token池化范式,转而引入时空敏感的注意力门控模块,依据视频语义密度(如运动剧烈度、对象交互频次)动态分配视觉编码资源——在静态镜头区域大幅压缩令牌数,在关键动作帧则保留高分辨率细粒度表征,实现计算负载与信息保真度的帕累托最优。

实验结果极具说服力:在权威视频多模态评测基准VideoMME上,Dynamic-VLM以绝对优势领先LLaVA-OneVision 2.7个百分点;在侧重跨帧因果推理的MuirBench上更实现10.7%的跨越式提升。研究团队分析指出,其成功关键在于‘压缩不等于丢弃’——动态机制保留了视频内在的时序拓扑结构,使模型能准确捕捉‘玻璃杯被推倒→液体溢出→桌面浸湿’这类三级因果链,而传统方法常因帧间采样失衡导致中间状态丢失。此外,所构建的合成数据集采用可控物理引擎渲染,涵盖光学错觉、材质反射、流体动力学等12类真实世界视觉现象,有效缓解了真实视频标注成本高、覆盖场景窄的痼疾。

该成果已获CVPR 2026 Oral录用,并被快手、B站等平台接入其短视频内容审核与智能剪辑管线。实践表明,Dynamic-VLM在1080p@30fps视频流上推理延迟稳定在412ms以内(Tesla A100),较基线模型降低39%,同时将虚假违规识别率下降22%。这标志着视频理解正从‘单帧感知’迈向‘时序因果建模’新阶段,为自动驾驶行为预测、医疗手术视频分析等高价值场景提供坚实技术底座。