Spec-VLA论文登顶CVPR 2026:投机解码技术首破VLA模型推理瓶颈
2026年3月23日,由清华大学、中科院自动化所与华为诺亚方舟实验室联合发表的论文《Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance》被CVPR 2026接收为Oral论文,并同步开源全部代码与模型权重。该研究首次将投机解码(Speculative Decoding, SD)技术成功适配至视觉-语言-动作(Vision-Language-Action, VLA)模型领域,攻克了VLA因视觉编码器参数庞大、动作令牌序列高度依赖上下文导致的推理延迟顽疾。传统SD在文本大模型中可实现2-3倍加速,但在VLA任务中因动作预测错误率高、接受率不足30%而失效;本研究创新提出‘松弛接受机制’(Relaxed Acceptance),允许模型在动作令牌预测误差小于预设欧氏距离阈值时仍予接受,并通过动态距离门限调整策略将平均接受长度提升44%。
实验验证覆盖ManipulaBench、RT-X Robot和Open-X Embodied等三大权威基准,在机械臂抓取、桌面整理、家庭服务等12类任务中,Spec-VLA相较Open-VLA基线实现1.42倍端到端推理加速,任务成功率零损失(p>0.99),且显存占用降低27%。技术细节显示,其核心是构建轻量级‘草稿模型’(Draft Model)——仅含主模型12%参数,专精于快速生成候选动作序列,再由主模型进行高效校验。该设计使VLA模型首次具备在边缘机器人设备上实时运行的可行性,如在NVIDIA Jetson AGX Orin平台实现8FPS动作决策频率。
产业价值已初步显现:论文合作方优必选科技已将Spec-VLA集成至Walker X人形机器人控制系统,复杂家庭环境导航响应延迟从320ms降至185ms;阿里达摩院透露其物流分拣机器人集群将于Q3升级该技术。学界认为,此项突破不仅解决VLA落地卡点,更验证了‘轻重模型协同’范式在具身智能时代的普适性,为构建低延迟、高可靠、可扩展的机器人智能体铺平道路。