Spec-VLA:首个面向视觉-语言-动作模型的投机解码框架实现1.42倍推理加速

2026-04-08 11:10 👁 阅读

2026年3月23日,一项突破性研究正式发布,题为《Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance》,首次将投机解码(Speculative Decoding, SD)范式系统性适配至视觉-语言-动作(Vision-Language-Action, VLA)模型的动作预测任务中。传统VLA模型(如OpenVLA)受限于其底层视觉语言模型(VLM)庞大的参数量与自回归解码机制,在机器人控制、具身智能体实时响应等关键场景中面临高延迟与高算力开销瓶颈。该研究直面这一行业痛点,提出松弛接受机制(Relaxed Acceptance),通过建模动作令牌在时序空间中的相对距离分布,显著提升投机令牌的接受长度——实验表明,在多个标准VLA基准(如RT-2、OpenVLA-Bench)上,Spec-VLA将平均令牌接受长度提升44%,端到端推理速度达1.42倍加速,且在任务成功率(Success Rate)上实现零损,验证了其工程鲁棒性与部署可行性。

研究团队进一步揭示了VLA任务中动作预测的局部一致性特征:相邻时间步的动作令牌往往具有语义邻近性与物理约束连续性,这为松弛接受提供了理论基础。不同于文本生成中依赖token概率阈值的传统SD策略,Spec-VLA设计了一种基于动态距离门控的接受判据,允许在满足运动学合理性前提下接受更大跨度的推测动作序列。该机制不仅降低了解码迭代次数,更减少了GPU显存中频繁的KV缓存重计算开销,对边缘端具身智能设备尤为友好。

值得关注的是,该工作已全面开源——代码、预训练权重、完整实验配置及统计报告均按Apache 2.0协议公开于GitHub,并配套详尽的文档说明与可复现的Docker环境。产业界反馈显示,已有国内头部服务机器人厂商将其集成至新一代导航-操作联合决策模块,在室内复杂场景下的平均响应延迟从820ms降至577ms,显著提升人机协同自然度。此项成果标志着多模态大模型正从“能看会说”迈向“可控行动”,为AI智能体在真实物理世界中实现低延迟、高保真闭环控制提供了关键技术支点。