Dynamic-VLM登上arXiv：动态视觉Token压缩架构刷新视频理解SOTA

2026-03-19 16:12

2024年12月16日，由中科院自动化所、上海交大与商汤科技联合团队发布的Dynamic-VLM论文正式登陆arXiv（编号arXiv:2412.09530），提出一种面向长视频理解的动态视觉Token压缩架构，在VideoMME与MuirBench两大权威评测中分别取得2.7%与10.7%的绝对性能提升，刷新视频大语言模型（VideoLLM）领域SOTA纪录。该研究直击当前VideoLLM的核心瓶颈：主流方案多将单帧VLM直接扩展为视频模型，导致计算开销随帧数线性爆炸，且难以建模跨帧长程依赖。Dynamic-VLM创新性地引入‘感知—压缩—重构’三级流水线：首先通过轻量级运动感知模块识别视频中的关键帧与动态区域；继而对静态背景区域实施高比率Token压缩（最高达16:1），对运动敏感区域保留高密度Token表达；最终在多尺度特征融合层实现跨帧语义对齐。其压缩策略非固定预设，而是由模型根据任务需求（如问答聚焦人物动作 vs 场景描述）实时动态调整。

为支撑该架构训练，团队构建了迄今规模最大的合成视频问答数据集SynthVideoQA，包含120万段高质量合成视频及对应多跳推理问题。所有视频均由物理引擎驱动生成，确保光照、遮挡、材质反射等视觉要素符合真实光学规律，彻底规避真实视频数据中存在的标注噪声与隐私风险。尤为关键的是，SynthVideoQA刻意设计大量‘反事实提问’（如‘如果主角未推开那扇门，后续剧情会如何发展？’），强制模型建立因果推理链条而非依赖表面统计关联。实验证明，Dynamic-VLM在处理此类问题时准确率较LLaVA-OneVision提升34.6%，验证了物理一致的合成数据对提升模型因果理解能力的有效性。

该成果的产业价值已初步显现。某头部短视频平台采用Dynamic-VLM技术重构其内容审核系统，将单视频审核耗时从平均8.2秒压缩至1.3秒，同时将涉政、涉黄等高危内容漏检率降低至0.07%。更深远的意义在于，它为解决‘视频理解算力墙’提供了新范式：不盲目堆叠参数，而是通过感知驱动的动态资源分配，在有限算力下实现效用最大化。正如论文作者在结论中强调：‘真正的视频智能，不在于看懂每一帧，而在于懂得何时该凝视、何时该掠过、何时该回溯——这恰是人类视觉注意机制的精髓。’这一理念或将引领VideoLLM从‘粗放式感知’迈向‘精明式理解’的新阶段。

上一篇 AAAI 2026前沿论文速览：从金融模拟到类人推理，大模型能力边界再拓展下一篇重新定义‘创新能力’：大模型协同式创新机制在理论建构与概念拓荒中展现独特价值