市场

为了“喂饱”机器人，大厂们纷纷启动“全民数采”

盖世汽车 2026-06-11 15:30

具身智能的数据缺口有多大？一个简单的抓取动作，可能就需要几百上千条真实演示。而全球真正可用的高质量真机数据，加起来不过几十万小时，缺口是千万级甚至百亿级。

怎么填？

大厂们给出的最新答案是：动员群众，搞众包。

6月10日，戴盟机器人与中国移动宣布了一项重磅合作：双方将依托中国移动遍布全国的数十万家线下营业厅，共建一张“外发式”数据采集网络。

其中，首个试点基地已在湖南郴州落成，定位为全球首家“具身数据采集5S店”，计划于7月15日进入常态化运营。

戴盟与中国移动的此次合作，直指当下制约具身智能发展最核心的难题：高质量真机数据的极度匮乏，正在成为通往通用机器人时代的“阿喀琉斯之踵”。

破解数据之困，大厂纷纷启用“人海战术”

先看一组对比。

大语言模型训练，可以疯狂吞噬互联网上已有的文本数据，万亿 Token 随便喂。

但机器人不行。机器人要学习的是物理世界的操作——怎么抓水杯、怎么叠衣服、怎么在凌乱的厨房里拿起一把勺子。这类数据，互联网上几乎没有现成的。

图片来源：戴盟机器人

那现采呢？传统方式是在实验室里，由专业工程师通过遥操作设备一遍遍演示，不仅成本高，一个动作要重复几百上千次，而且场景单一、光照固定、物品规整。

用这种数据训练出来的模型，换个环境可能就“抓瞎”。

行业测算显示，当前具身智能领域的高质量真实数据规模仅约50万小时，而一个技能点要达到交付级水准，就需要2000至5000小时的训练数据，其后的数据缺口可见一斑。

在这样的背景下，戴盟和中国移动开展“数采进家庭”，可谓众望所归。

根据规划，郴州的5S店将集展示、数据采集培训、数采设备供给、售前售后服务与数据-模型-场景协同于一体。普通市民经过短期培训，戴上二指夹爪、触觉手套和头戴相机，就能在家居、物流、制造等五大场景中成为数据采集员。

项目初期投放1000套设备，满产状态下年产出预计可达100万小时的真实场景数据。

事实上，除了中国移动，京东也推出了类似的众包数采项目，旨在从源头破解具身智能行业“数据荒”。

今年3月，京东宣布建设全球规模最大、场景最全的具身智能数据采集中心，为此将发动数十万人参与数据采集——包括内部超10万名各类职业员工，以及外部50万名各行业人士。其中仅在宿迁，就将发动超10万市民参与，覆盖家庭、办公室、工厂到物流、商店、餐厅、医疗、环卫等超百个细分场景。

按照规划，京东目标一年内积累500万小时人类真实场景视频数据，两年内突破1000万小时，同步实现采集机器人本体数据100万小时。

图片来源：宿迁发布

4月中旬，京东正式发布具身智能数据基础设施，覆盖“采、存、标、训、评、仿、测”全链路，旨在打通从数据采集到模型测试的全流程闭环。

同时，京东云还发布了自研的可穿戴式超高清采集终端JoyEgoCam，并同步上线了具身智能数据交易平台，首批定向开放2000小时高精标注数据集。

目前，据悉仅京东宿迁具身智能数据采集中心，就可容纳近万人同步作业。京东还将数据采集场景深度延伸至社区民生与工业生产一线，构建起 " 社区众包 + 工业定点 " 的双轨采集模式。

这种数采模式的真正价值，可以从多个层次来看。

第一，把数据采集的价格打下来。

众包模式通过把数采任务“分发”给普通公众，利用真实生活或者工作场景，借助轻量化设备采集，可大幅降低数采成本，同时提高采集效率。比较之下，遥操作数据成本极高，一小时可能动辄数百美元。

第二，具备实验室无法比拟的场景多样性。

一万数采人员，就有一万种房间布局、一万种光照条件和一万种操作习惯。这种来自真实世界的“野生”数据，虽然不那么规整，却恰恰是训练模型泛化能力最需要的“养分”。

毕竟，机器人将来要面对的世界，本来就是混乱而多样的，不可能指望它们在整洁的实验室里学会一切。

第三，打通了一条从公众参与到商业闭环的路径。

采集员获得了报酬，大厂们获得了流量和附加值，具身智能行业则拿到了稀缺的数据。这种多方共赢的结构，让数据采集不再是纯投入的“烧钱工程”，而有可能自我维持、滚动发展。

据京东4月份公布数据，当时其数采项目日处理数据量就已达数十万条，数据有效率高达95%，整体处理成本降低60%。

众包不是“万能药”，单一模式难解数据饥渴

面对具身数据缺口，众包能解决“量”的问题，但解决不了所有问题。

首先，是数据质量问题。不同采集者的操作习惯、技能水平参差不齐，即便是经过统一培训，也难以保证数据的一致性。更何况，行业至今仍缺乏统一的数据格式和质量标准，各家采回来的数据，就像说着不同方言的人，难以交流整合。

其次，是精度天花板。人类自身的生理局限，如微颤、疲劳、反应延迟决定了许多精细操作无法通过众包来采集。

再者，“人海战术”也有上限。当行业数据需求从“百万小时”涨到“百亿小时”，采集员的数量不可能无限扩张，人力成本也会水涨船高。

长远来看，当机器人真正大规模走进家庭和工厂后，它们自己才是最大的数据来源——但这需要先跨过初期的门槛。

图片来源：戴盟机器人

正是因为这些局限，行业逐渐形成了一个共识：未来的数据解决方案，不是某一条路线的“独角戏”，而是多种数据采集方式并存，形成一个清晰的“数据金字塔”架构：自下而上数据量越来越小，数据质量越来越高，但同时采集的难度和成本也也越来越大。

其中，最底层是互联网视频数据及仿真合成数据，相对容易获取，规模最大，但无效信息也较多，特别是缺乏真实的物理接触信息。

业界的普遍看法是，在预训练阶段可以多使用此类数据，作为模型训练的起点。

往上一层是“以人为中心”的实景采集数据，包括众包采集，主要是通过手持夹爪等轻量化设备，规模化采集带有真实触觉反馈的操作序列。

该模式扮演着重要的“桥梁”角色：数据来自真实世界，场景多样，成本可控，但代价是质量控制成本高，且难以采集高精度动作

最顶层、数据量最小的，则是真机采集的数据，精度最高、最贴近真实机器人运行状态，但采集效率极低、成本极高，难以规模化，更适合用于攻克核心任务。

这几种技术路线，不是谁替代谁，而是分工协同的关系：仿真数据给规模，众包数据给真实，遥操作数据给精度，多路线协同发力，一起把模型从“能看会认”推向“能做会干”。

回到开头，戴盟与中国移动此次合作，到底意味着什么？

这不是一个终极方案，但为行业打开了一扇新的门。

当郴州的市民戴上采集手套，在日常家务中为机器人“投喂”数据时，一场全民参与的“具身智能基建运动”已经悄然开始。

来源：第一电动网

作者：盖世汽车

本文地址：https://www.d1ev.com/news/shichang/302750

返回第一电动网首页 >

以上内容转载自盖世汽车，目的在于传播更多信息，如有侵仅请联系admin#d1ev.com(#替换成@)删除，转载内容并不代表第一电动网（www.d1ev.com）立场。

文中图片源自互联网，如有侵权请联系admin#d1ev.com（#替换成@）删除。

分享到：

发表评论

新闻推荐

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx