具身智能的数据缺口有多大?一个简单的抓取动作,可能就需要几百上千条真实演示。而全球真正可用的高质量真机数据,加起来不过几十万小时,缺口是千万级甚至百亿级。
怎么填?
大厂们给出的最新答案是:动员群众,搞众包。
6月10日,戴盟机器人与中国移动宣布了一项重磅合作:双方将依托中国移动遍布全国的数十万家线下营业厅,共建一张“外发式”数据采集网络。
其中,首个试点基地已在湖南郴州落成,定位为全球首家“具身数据采集5S店”,计划于7月15日进入常态化运营。
戴盟与中国移动的此次合作,直指当下制约具身智能发展最核心的难题:高质量真机数据的极度匮乏,正在成为通往通用机器人时代的“阿喀琉斯之踵”。
破解数据之困,大厂纷纷启用“人海战术”
先看一组对比。
大语言模型训练,可以疯狂吞噬互联网上已有的文本数据,万亿 Token 随便喂。
但机器人不行。机器人要学习的是物理世界的操作——怎么抓水杯、怎么叠衣服、怎么在凌乱的厨房里拿起一把勺子。这类数据,互联网上几乎没有现成的。
图片来源:戴盟机器人
那现采呢?传统方式是在实验室里,由专业工程师通过遥操作设备一遍遍演示,不仅成本高,一个动作要重复几百上千次,而且场景单一、光照固定、物品规整。
用这种数据训练出来的模型,换个环境可能就“抓瞎”。
行业测算显示,当前具身智能领域的高质量真实数据规模仅约50万小时,而一个技能点要达到交付级水准,就需要2000至5000小时的训练数据,其后的数据缺口可见一斑。
在这样的背景下,戴盟和中国移动开展“数采进家庭”,可谓众望所归。
根据规划,郴州的5S店将集展示、数据采集培训、数采设备供给、售前售后服务与数据-模型-场景协同于一体。普通市民经过短期培训,戴上二指夹爪、触觉手套和头戴相机,就能在家居、物流、制造等五大场景中成为数据采集员。
项目初期投放1000套设备,满产状态下年产出预计可达100万小时的真实场景数据。
事实上,除了中国移动,京东也推出了类似的众包数采项目,旨在从源头破解具身智能行业“数据荒”。
今年3月,京东宣布建设全球规模最大、场景最全的具身智能数据采集中心,为此将发动数十万人参与数据采集——包括内部超10万名各类职业员工,以及外部50万名各行业人士。其中仅在宿迁,就将发动超10万市民参与,覆盖家庭、办公室、工厂到物流、商店、餐厅、医疗、环卫等超百个细分场景。
按照规划,京东目标一年内积累500万小时人类真实场景视频数据,两年内突破1000万小时,同步实现采集机器人本体数据100万小时。
图片来源:宿迁发布
4月中旬,京东正式发布具身智能数据基础设施,覆盖“采、存、标、训、评、仿、测”全链路,旨在打通从数据采集到模型测试的全流程闭环。
同时,京东云还发布了自研的可穿戴式超高清采集终端JoyEgoCam,并同步上线了具身智能数据交易平台,首批定向开放2000小时高精标注数据集。
目前,据悉仅京东宿迁具身智能数据采集中心,就可容纳近万人同步作业。京东还将数据采集场景深度延伸至社区民生与工业生产一线,构建起 " 社区众包 + 工业定点 " 的双轨采集模式。
这种数采模式的真正价值,可以从多个层次来看。
第一,把数据采集的价格打下来。
众包模式通过把数采任务“分发”给普通公众,利用真实生活或者工作场景,借助轻量化设备采集,可大幅降低数采成本,同时提高采集效率。比较之下,遥操作数据成本极高,一小时可能动辄数百美元。
第二,具备实验室无法比拟的场景多样性。
一万数采人员,就有一万种房间布局、一万种光照条件和一万种操作习惯。这种来自真实世界的“野生”数据,虽然不那么规整,却恰恰是训练模型泛化能力最需要的“养分”。
毕竟,机器人将来要面对的世界,本来就是混乱而多样的,不可能指望它们在整洁的实验室里学会一切。
第三,打通了一条从公众参与到商业闭环的路径。
采集员获得了报酬,大厂们获得了流量和附加值,具身智能行业则拿到了稀缺的数据。这种多方共赢的结构,让数据采集不再是纯投入的“烧钱工程”,而有可能自我维持、滚动发展。
据京东4月份公布数据,当时其数采项目日处理数据量就已达数十万条,数据有效率高达95%,整体处理成本降低60%。
众包不是“万能药”,单一模式难解数据饥渴
面对具身数据缺口,众包能解决“量”的问题,但解决不了所有问题。
首先,是数据质量问题。不同采集者的操作习惯、技能水平参差不齐,即便是经过统一培训,也难以保证数据的一致性。更何况,行业至今仍缺乏统一的数据格式和质量标准,各家采回来的数据,就像说着不同方言的人,难以交流整合。
其次,是精度天花板。 人类自身的生理局限,如微颤、疲劳、反应延迟决定了许多精细操作无法通过众包来采集。
再者,“人海战术”也有上限。当行业数据需求从“百万小时”涨到“百亿小时”,采集员的数量不可能无限扩张,人力成本也会水涨船高。
长远来看,当机器人真正大规模走进家庭和工厂后,它们自己才是最大的数据来源——但这需要先跨过初期的门槛。
图片来源:戴盟机器人
正是因为这些局限,行业逐渐形成了一个共识:未来的数据解决方案,不是某一条路线的“独角戏”,而是多种数据采集方式并存,形成一个清晰的“数据金字塔”架构:自下而上数据量越来越小,数据质量越来越高,但同时采集的难度和成本也也越来越大。
其中,最底层是互联网视频数据及仿真合成数据,相对容易获取,规模最大,但无效信息也较多,特别是缺乏真实的物理接触信息。
业界的普遍看法是,在预训练阶段可以多使用此类数据,作为模型训练的起点。
往上一层是“以人为中心”的实景采集数据,包括众包采集,主要是通过手持夹爪等轻量化设备,规模化采集带有真实触觉反馈的操作序列。
该模式扮演着重要的“桥梁”角色:数据来自真实世界,场景多样,成本可控,但代价是质量控制成本高,且难以采集高精度动作
最顶层、数据量最小的,则是真机采集的数据,精度最高、最贴近真实机器人运行状态,但采集效率极低、成本极高,难以规模化,更适合用于攻克核心任务。
这几种技术路线,不是谁替代谁,而是分工协同的关系:仿真数据给规模,众包数据给真实,遥操作数据给精度,多路线协同发力,一起把模型从“能看会认”推向“能做会干”。
回到开头,戴盟与中国移动此次合作,到底意味着什么?
这不是一个终极方案,但为行业打开了一扇新的门。
当郴州的市民戴上采集手套,在日常家务中为机器人“投喂”数据时,一场全民参与的“具身智能基建运动”已经悄然开始。
来源:第一电动网
作者:盖世汽车
本文地址:https://www.d1ev.com/news/shichang/302750
以上内容转载自盖世汽车,目的在于传播更多信息,如有侵仅请联系admin#d1ev.com(#替换成@)删除,转载内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网,如有侵权请联系admin#d1ev.com(#替换成@)删除。