蚂蚁数科发布低成本具身智能数据采集框架AoE

近日，蚂蚁数科天玑实验室联合中国科学院自动化研究所、浙江大学、北京大学、北京智源人工智能研究院，联合研发并发布了Always-on Egocentric（AoE）低成本具身智能数据采集框架。该框架仅需一台普通手机搭配一个成本低于20美元的颈挂式支架，即可替代动辄数万美元的专业采集设备，实现具身智能高质量数据的规模化采集，相关技术论文已在Arxiv平台发布，为行业突破数据采集瓶颈提供了全新解决方案。

具身智能的核心是让AI系统像人类一样感知和操控物理世界，而第一人称视角的交互数据则是训练这类AI的“核心燃料”。长期以来，行业内数据采集始终面临“低成本、大规模、高精度”难以兼得的“不可能三角”困境：传统遥操作设备成本高昂且局限于实验室，可穿戴动捕设备笨重且价格不菲，互联网被动视频则需大量人工清洗才能用于训练，这些问题严重抬高了具身智能的研发门槛，制约了技术规模化落地。

AoE框架的核心突破的在于重构了数据采集模式，将“人+手机”转化为可持续运行的移动数据节点，让具身数据从少数高成本实验室节点，走向更广泛、真实的现实世界场景。其硬件载体是一款符合人体工学的颈挂式支架，通过机械夹具、磁吸等双重固定方式将手机稳固于胸前，以贴近人类第一人称的视角，完整记录人与环境的自然交互过程。这套硬件组合成本不足20美元，仅为传统专业设备的千分之一，却能保持毫米级轨迹精度和90%以上的手部关键点识别准确率，同时支持数千台设备并发采集与云端自动化处理，大幅降低了采集门槛与边际成本。

低成本采集只是起点，AoE框架还创造性破解了“长视频转化为训练数据”的行业痛点，构建了端云协同的全自动化处理管线。在端侧，手机部署的轻量级视觉模型可实时识别手物交互行为，仅在人手接触或操作物体时触发录制，避免无效视频占用存储空间和处理资源；隐私保护方面，所有推理和原始数据均存储在本地，上传前会自动模糊人脸、屏幕等敏感信息，并通过音频提示告知周围人员，兼顾采集效率与隐私安全。

采集到的有效视频片段上传云端后，会经过六阶段自动化处理：通过手机出厂内参完成相机校准，利用Qwen3-VL大模型将长视频切分为带语义标签的原子动作片段，结合深度模型与SLAM算法恢复空间信息，通过HaWoR模型重建3D手部关节点，再经数据增强和质量控制环节，最终自动生成标准化的训练数据，全程无需人工介入，实现了从原始视频到可用训练数据的闭环转化。

实测数据充分验证了AoE框架的实用价值。在Unitree G1人形机器人执行“关笔记本电脑”任务中，仅依靠50条传统遥操作数据时，任务成功率仅为45%；而引入200条AoE采集的数据后，成功率跃升至95%。消融实验进一步显示，在采集数据稀疏时，AoE数据可发挥“启动学习”的冷启动作用；随着机器人采集数据增加，AoE数据仍能持续提升模型性能。此外，在“推碗倒种子”等长程双手任务中，AoE数据也有效提升了模型的协调控制能力，仅在“叠围巾”任务中因硬件延迟未出现提升，印证了数据本身的高质量价值。

从行业布局来看，AoE框架的发布，完善了蚂蚁数科在具身智能领域的三层能力栈：采集层以AoE为核心构建低成本分布式采集体系，模型层有LingBot系列开源模型提供技术支撑，应用层则通过投资相关企业推动技术落地。作为数据采集环节的“源头活水”，AoE框架的推出，不仅为中小开发者和企业提供了普惠式的数据生产方案，更将推动具身智能在服务机器人、工业操作、智能家居、金融服务等多个领域的规模化落地，加速行业从实验室研发走向实际应用的进程。

蚂蚁数科天玑实验室相关负责人表示，未来将持续优化AoE框架的技术性能，拓展更多采集场景，同时通过公开技术思路、完善数据产线，与行业伙伴携手降低具身智能研发门槛，共同推动AI技术扎根真实场景、创造产业价值。

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高

2026-03-07 16:00

蚂蚁数科发布低成本具身智能数据采集框架AoE

📚 相关推荐

GPT-5.4 正式发布：百万 Token 上下文 + 原生计算机操作能力升级

Gemini 3.1 Flash-Lite 上线，谷歌推出高性价比轻量化大模型

Claude Opus 4.6 坐稳旗舰，长文本处理再攀新高