从实验室到真实场景数据为具身智能落地关键-北方企业新闻网

当前位置：北方企业新闻网> 产业经济>> 人工智能>正文内容

从实验室到真实场景数据为具身智能落地关键
2026年04月23日来源：中国网

提要：夏志进表示，目前市场上，具身智能相关数据仍存在较大缺口，与此同时，关于具身智能数据的选用标准、用量规模以及采集方式，行业内尚未形成统一共识，企业仍处于探索阶段。另有业内投资人表示，当下资本更看好具备低成本、高效率的数据获取方式的企业。

在近期具身智能企业的发布活动中，数据成为高频词汇。随着具身智能从实验室走入真实场景，数据成为影响具身智能落地部署的关键。近日，觅蜂科技、帕西尼发布具身智能数据与数据服务平台，多家企业发布更低成本的数据采集方案，围绕物理AI数据规模、质量与成本的竞赛全面开启。

数据成为模型能力关键

“机器人其实硬件到位了，但是大脑没有跟上，就像空有一身漂亮的肌肉。”自变量机器人CEO王潜在4月21日举办的发布会上说。

如今，业内普遍认为具身智能数据是提升机器人“大脑”能力的关键，这种能力对应着更强的具身模型能力，通常指机器人执行任务的泛化性。自变量机器人CTO王昊将具身智能模型训练所用的数据分为“糖水数据”和“牛奶数据”：“糖水数据”来自实验室，与现实世界有较大差距，难以提升模型的泛化性；“牛奶数据”来自真实环境，充满随机性，对模型训练更有益。

为了获得高质量的“牛奶数据”，自变量机器人将机器人部署到100个志愿者的真实家庭中进行训练。“真实的混乱和不可预测的场景、画面，这些才是能驱动数据飞轮真正转起来的因素。”王昊称，以实验室数据打底，真实环境的数据提质，自变量机器人发布新一代基于世界统一模型架构的具身智能基础模型WALL-B。公司还宣布，今年5月25日，部署WALL-B模型的新一代机器人将入驻真实家庭，边做边学。

具身数据已经成为今年行业发展的关注焦点。“机器人的跑跳等运动能力，前两年已经很大程度得到解决，下一步要解决机器人能干活的问题，这需要机器人‘大脑’能感知、能做规划，需要数据来训练模型。”祥峰投资管理合伙人夏志进对记者表示，对具身模型和数据的高关注度，正是当前行业推动机器人落地部署的真实需求。

觅蜂科技董事长姚卯青认为，2026年是具身智能产业数据元年，具身智能是万亿元级赛道，但行业面临数据荒漠。“文本大模型语料规模达百亿小时级，具身智能高质量数据规模仅为50万小时级，差距巨大。”他表示，百亿小时是通用智能的基础门槛。阿里云高级算法专家张民英也表示，要让具身智能模型能力实现突破，需要100亿小时数据量级。

头部企业积极布局

4月16日，帕西尼联合京东云、腾讯云、百度智能云共同推出全模态具身智能数据云商城，即日起全面对外开放。同日，智元机器人控股的具身智能数据平台公司觅蜂科技在上海发布一站式物理AI数据服务平台，并上线觅蜂数据商城，公司计划到2026年和2030年，分别实现千万小时级、百亿小时级数据产能。今年3月光轮智能宣布完成近10亿元融资，成为首个具身数据领域的“独角兽”企业，并宣布在今年一季度获得5.5亿元订单。

“当下处于数据‘军备竞赛’的起点。”姚卯青表示，行业头部数据需求方，普遍有全年百万小时的数据需求。

此前，北京、上海、天津、武汉、无锡等多地已经建立起大规模的具身智能数据采集工厂，行业探索发现，传统数据采集模式依赖大量机器人本体，由人工遥操作采集，采集成本高、花费时间长。如今，更多企业开始探索更低成本的数据采集方式。

夏志进介绍：“近期比较受关注的是采用UMI(通用操作接口)方案，通过人类穿戴采集设备采集数据，再将采集到的数据部署至机器人。”如今年3月鹿明机器人发布FastUMI无本体数采产品，该方案将单条数据采集时间从传统遥操作所需的50秒缩短至10秒，效率大幅提升，同时将综合成本降至原来的五分之一。

今年4月，觅蜂科技发布MEgo系列无本体采集硬件，包括夹爪造型的手持轻量化采集设备MEgo Gripper，以及穿戴在头部、手部的MEgo View采集终端。这些搭载着传感器、摄像头的采集设备会将穿戴者的周围环境与动作轨迹采集、还原。“随着无本体采集方案普及，预计采集效率会达到真机采集的两三倍，数据成本也将下降。”姚卯青称。

专家认为，另一个降低数据采集成本的方案是使用部分视频数据与仿真合成数据，与真实数据相印证，帮助降低模型训练成本、提升效率。例如极佳视界2025年12月发布并开源的具身世界模型GigaWorld-0，将世界模型生成数据在VLA训练中的占比提升至90%。千寻智能联合创始人高阳介绍，公司选择基于海量人类互联网视频进行预训练，通过自研设备将数据采集成本降低了90%。

夏志进表示，目前市场上，具身智能相关数据仍存在较大缺口，与此同时，关于具身智能数据的选用标准、用量规模以及采集方式，行业内尚未形成统一共识，企业仍处于探索阶段。另有业内投资人表示，当下资本更看好具备低成本、高效率的数据获取方式的企业。

需尽快建立标准

在提升具身数据规模的同时，具身数据标准、质量问题成为行业挑战。“首先是行业标准缺失，各家企业生产数据的格式、标注都自成体系，难以互通和复用；二是数据质量参差不齐，数据标注不规范、数据质量粗糙问题普遍存在。”姚卯青表示，大模型由数据驱动，如果输入“垃圾数据”，产出的就是“垃圾模型”。

为解决数据标准问题，行业企业正在各自探索。如觅蜂科技通过数据治理引擎对采集到的数据进行处理，其中包括数据预处理、空间感知信息提取、数据质量评估等。“从数据硬件层面的同步、标定，再到语义的标注，再到采集操作的规范，以及数据场景、任务的多样性，这些都构成了高质量数据的必要元素。”姚卯青称。

帕西尼则建立了一套标准化的数据全生命周期闭环管理系统，降低数据清洗成本，确保数据的一致性与高质量。北京人形机器人创新中心设立的具身智能机器人数据与训练基地也建立了标准化项目管理体系，制定数据采集、标注、质检等系列规范，实现全流程的质量把控。

光轮智能创始人兼CEO谢晨表示，具身智能数据呈现为“真机数据、仿真数据、互联网视频数据”三层金字塔结构，三类数据都是实现行业泛化的必要条件。除了数据的缺失，当前行业痛点还在于缺少模型评价体系。谢晨说：“如果没有评价体系，大家就不知道用什么样的数据能够使模型表现得更好。”从业者普遍认为，行业需要建立统一的数据采集标准和模型评价体系。

责任编辑：周峰菊