Dynamic-VLM:动态视觉令牌压缩架构刷新视频理解SOTA,长视频处理效率跃升
视频理解作为多模态AI的终极挑战之一,长期受限于固定分辨率采样与静态令牌编码带来的信息冗余与计算浪费。2024年12月16日公开的Dynamic-VLM论文提出一种‘简单而有效’的动态视觉令牌压缩机制,直击当前VideoLLM在处理长时序、高分辨率视频时的性能瓶颈。该模型并非依赖更大参数量或更复杂架构,而是通过引入可学习的时空注意力门控模块,在推理阶段按帧内容重要性动态剪枝冗余视觉令牌,实现计算资源的精准分配。
在权威视频多任务基准测试中,Dynamic-VLM全面超越现有SOTA:在VideoMME上较LLaVA-OneVision提升2.7个百分点,在MuirBench上大幅提升10.7%,并在跨视频检索、时序定位、多跳推理等复杂任务中展现出卓越泛化能力。尤为关键的是,其动态压缩策略使单视频处理FLOPs降低38%,GPU显存占用减少52%,为在消费级显卡上部署10分钟级高清视频分析提供了可行性路径。
研究团队同步构建了首个面向视频理解的合成评测数据集SynthVideoQA,覆盖物理常识、因果推理、细粒度动作识别等23类挑战性问题,所有prompt均由物理仿真引擎与专家规则联合生成,确保问题真实性与评估严谨性。该工作不仅为VideoLLM设计提供了新范式,更推动视频AI从‘片段理解’迈向‘长程语义连贯理解’,对智能安防、工业质检、医疗影像分析等强时序依赖场景具有直接转化价值。