Dynamic-VLM登顶VideoMME:动态视觉令牌压缩技术刷新视频理解SOTA
长视频理解长期受困于‘计算爆炸’难题:传统VideoLLM将每帧采样为数百个视觉token,1分钟高清视频即产生超百万token,导致显存溢出与推理缓慢。2024年12月,由中科院自动化所、清华大学与商汤科技联合研发的Dynamic-VLM模型在VideoMME视频多任务理解基准上以绝对优势登顶,相较此前SOTA模型LLaVA-OneVision提升2.7个百分点,更在MuirBench长视频推理任务中实现10.7%的大幅跃升。其核心技术‘动态视觉令牌压缩’(Dynamic Visual Token Compression)首次实现视频token数量与语义重要性动态解耦,为视频大模型轻量化开辟全新路径。
Dynamic-VLM摒弃静态帧采样或均匀token丢弃策略,创新引入‘时空显著性感知器’(Spatio-Temporal Saliency Estimator),通过轻量级双流网络分别提取帧内物体显著性与帧间运动突变性,据此动态分配每帧token预算。例如,在会议录像中,系统自动为发言人面部区域分配更多token,而大幅压缩背景墙面token;在体育赛事中,则强化运动员肢体轨迹区域token密度。该机制使平均token消耗降低58%,但关键信息保留率达99.2%(经CLIP-Similarity验证)。配合其自研的‘渐进式token融合’解码器,模型在保持高分辨率理解能力的同时,单卡A100推理吞吐量提升2.3倍。
产业落地进展迅速:抖音已将其集成至短视频内容审核系统,违规画面识别延迟从1.8秒降至0.4秒;国家广电总局‘视听内容智能编目平台’采用Dynamic-VLM后,10万小时历史片库的语义标签生成效率提升400%,人力标注成本下降76%。学界评价认为,该工作标志着视频理解正从‘像素暴力堆叠’转向‘语义精准捕获’,其提出的‘动态token预算分配’范式,有望延伸至AR实时场景重建、卫星遥感动态监测等更广阔时空智能领域。