5月,贝斯特涡轮增压器装配产线上,正进行一项大胆“尝试”——熟练操作工头戴、腕戴智能采集终端,保持常规作业节奏,相关视觉、操作的数据以30Hz的刷新频率进行收集与回传。全产线全天产生的原始数据可达上百个GB。
而这仅是开始。近期,一场“千企百万小时”工业数据采集行动悄然在无锡落地启动,以城市全域真实场景为训练场,数采试点方案正批量进入到各个工业生产领域。
“计划于2026年率先实现累计超万小时的有效数据突破。”作为计划牵头单位,无锡数据集团介绍,数据经标准化采集、专业化处理后,将汇聚形成全国首个工业级高质量具身智能数据集。

01
具身智能发展至今,最值得关注的价值领域在哪里?行业已用实际行动“票选”出了答案——数据。4月29日,国家数据发展研究院联合光轮智能等企业,发起了“具身智能数据推进计划(北京)”;4月16日,京东宣布计划发动60万人参与数据采集,两年内积累1000万小时真实场景视频数据;4月10日,百度智能云联合零次方等企业,推出“具身智能数据超市(Beta版)”。
业内公认:“数据量级决定模型下限,数据质量决定模型上限。”相较于通用大模型,工业领域长期面临严重的“数据荒”。工业生产环境复杂、专业门槛高,高质量、多模态工业数据稀缺,成为制约工业具身智能迭代升级、落地应用的核心瓶颈,而无锡此次行动正是瞄准这一行业空白。
凭借完善的制造业基底,无锡具备培育工业具身智能的先天优势。本地不仅拥有具身智能本体研发企业,还集聚华虹、新日等一批制造龙头企业,产业场景丰富、实操工位多元、技术应用需求明确。无锡数据集团相关负责人表示,“千企百万小时”计划将整合本土多元产业资源,深耕上百个典型工业操作工位,联动万余名一线作业人员,打造具备标杆性的“工业级、万小时、千任务”高质量工业具身数据集,破除产业发展数据壁垒,为智能制造深度赋能。
今年4月,数据集团子公司华智(无锡)人工智能科技有限公司牵头申报的“具身智能行业基于无本体数据采集的柔性生产高质量数据集建设项目”入选省工业和信息化领域行业高质量数据集建设先行先试联合体及项目名单。与此同时,无锡引入的穹彻智能工业交付能力中心项目也在加速落地,其自研的NoematrixBrain具身大模型参数规模及性能全球领先。

在行动中,双方强强联手,穹彻智能将参与训练发布工业具身基座模型,华智AI则聚焦真实场景后训练与垂域模型打造,共同构建深度理解工业语义的“具身大脑”。
02
需要什么样的数据?数据又该如何用?无锡有着自己的理解。
从去年开始,华智AI明显感受到了职能的升级。“去年我们注重在具身智能+制造落地过程中的实践,今年,我们带着经验,回过头强化‘大脑’。”副总经理李玮说,真实场景应用需要具身智能具备自主推理和决策的泛化能力。
“关键需要建立机械臂重、关节摩擦、电机电流与力矩关系、运动约束等‘物理直觉’。”华智数采业务相关负责人王建介绍,简单来说,具身智能需要在大脑中“认识自己”。与大语言模型训练有海量的互联网文本数据不同,具身智能从虚拟投向物理世界的相关数据尚无太多积累。
基于对基座模型的训练共识,“千企百万小时”数据采集形成了一套“三真”数据质量体系——真实场景,采集环境为真实产线工业现场;真实设备,操作对象为真实工业工件、工具和装备;真人操作,采集人员为真实工人或技术员,同步建立包含专业性、通用性、稠密性、可解释性在内的八维质量评估体系,确保数据可靠实用。
采集过程中,项目组借助便携式无本体的采集设备,将难以量化的手感、力度与节奏实时解算完整运动轨迹。采集后,还要把数据视觉、动作、物理本体参数等成组标注、关联建模。在华智AI数据治理中心,原始数据正经历层层抽丝剥茧:从自动化的隐私打码脱敏,到光影、视角等维度的多重评估,再到专业人员的精细核查,全流程的闭环管理确保了输入模型训练的数据既具备工业纯度,又符合安全合规要求。
据悉,目前的数据采集方案可将单位数据采集成本降至传统模式的1/3,采集效率提升3倍。
03
行动计划的启动为传统企业智能化转型提供了新的机遇。“在整车的组装过程中,会涉及到一条产线上多种产品的混装,很大部分还是需要人工。总装过程中标准化生产的问题是整个行业的共性难题。”新日电动车股份有限公司董事、智能中心总经理张晶晶介绍,标准化作业是产品品质的生命线,数据采集从半年试点再到多产线铺开,将为机械臂构建起一套“工业教科书”。
基于在数据要素市场化改革的探索,数据集团为这些意愿强烈的企业消解安全顾虑,提供全周期服务。“我们积极探索数据授权、收益分配及数字资产转化的闭环路径,推动企业产线经验从‘隐形资产’向‘可计量、可流通、可增值’的数字生产力跃迁。”相关负责人表示。
不断有新的合作伙伴加入“生态圈”。近日,华智AI还和佩信集团正式签署战略合作协议,联合成立具身智能高质量数据集创新联合体,围绕全行业社会化无本体数据采集、高质量多模态数据集建设、行业标准制定、产业生态共建四大核心方向展开深度合作。
长远来看,“千企百万小时”计划不止聚焦工业制造领域。李玮表示,无锡作为全国首个提出城市全域数据采集概念的城市,将依托本土城市特色,把数采场景延伸至文旅、公共服务、酒店服务、居家生活等非工业领域,吸纳广大民众参与社会化数据采集,不断扩充数据维度、丰富数据场景。
未来,海量、优质、多场景的全域数据集,将成为无锡人工智能产业的核心壁垒与硬核竞争力,为国内具身智能产业高质量发展提供坚实的无锡支撑。
