北京空军总医院黄牛票贩子号贩子跑腿代挂号电话数据“燃料”催化具身智能:训练工厂涌现 行业加速破局
黄牛号贩子跑腿代挂号(18910288832)微信需要挂号联系客服(18910288832)各大医院服务项目!专家挂号,办理住院加快.检查加快,产科建档,指名医生挂号北京,上海,南京,天津.广州,各大医院代挂号
数据被称为具身智能产业发展的“燃料”。近日,帕西尼具身智能超级数据工厂(Super EID Factory)在天津空天数字产业园投用。帕西尼感知科技创始人兼CEO许晋诚告诉记者,数据的短缺是目前具身智能发展面临的瓶颈,目前具身智能产业可用的数据量仅为大语言模型可用数据量的几百分之一。
目前,国内多地建立具身智能数据采集工厂,有帕西尼在天津的工厂、智元机器人在上海的工厂,以及北京具身智能机器人创新中心的工厂。中国证券报记者先后探访了两家具身智能数据采集工厂,了解其技术手段以及数据赋能产业的方式。行业专家表示,具身智能数据采集工厂的建设刚刚起步,未来需要与产业需求结合,同时具身智能数据采集的统一与规范是加速行业发展的基础。
生产数据的“超级工厂”
在天津空天数字产业园,帕西尼极具现代感的银灰色建筑格外显眼。在这座12000平方米的工厂内,生产的核心产品不是实体,而是“数据”。
数据被称为具身智能产业发展的“燃料”。“从数据中进行模仿学习是具身智能模型进化的最具潜力途径之一。”许晋诚对记者表示,相比今年实现突破性进展的DeepSeek等大语言模型,具身智能目前能使用的数据量仅为大语言模型的几百分之一。
“现在的大语言模型使用的数据规模达到十万亿级,具身智能大模型的数据规模差不多在百万量级。数据的短缺是目前具身智能发展面临的瓶颈。”许晋诚说。
在帕西尼天津数据工厂的大厅,覆盖了一整面墙的大屏幕上显示着工厂的数据采集情况。屏幕上显示的数据每三秒刷新一次,当天屏幕显示,工厂的数据合格率达到92%以上。许晋诚表示,目前帕西尼天津数据工厂每天最多可采集55万条数据,预计工厂每年可生产高质量数据2亿条。
高工机器人产业研究所所长卢瀚宸告诉记者,训练具身智能大模型的数据主要分为仿真合成数据和真实数据两大类,还有一些厂商采用低成本的互联网数据用于机器学习。“真实数据采集的成本最高、采集难度最大,但质量最好,是目前具身智能产业发展最需要的资源。”
在上海浦东,占地3000平方米的智元数据采集中心已于2024年9月启动。记者近期实地探访看到,百台机器人在不同场景中忙碌作业,有的机器人上下挥舞机器手臂在滚动的传送带上熟练分拣物品,有的机器人摆动着机械双手在数据采集员的动作指导下灵活折叠衣物,还有的机器人化身收银员,站在商场柜台后对商品进行扫码结算。
智元机器人合伙人姚卯青介绍,智元数据采集中心已累计采集超百万条高质量数据,覆盖家居、餐饮、工业、商超和办公五大类真实场景。
卢瀚宸认为,不同于大语言模型的训练已经出现阶段性突破,具身智能领域尚无人能证明通过大规模的数据训练“复现”大语言模型的成功。但要让具身智能机器人更“智能”,可应用于更多场景,必须通过大量数据采集和大模型的训练。同时,具身智能的数据采集必须与产业需求结合,方能实现数据采集的闭环,让数据采集有“用武之地”。
数据采集方式各异
厂商对真实数据的采集方式也有不同。
在帕西尼天津数据工厂,数据采集员们正在进行各类原动作的采集,比如超市商品扫码、清理枕头、摆放餐具等。一名采集员穿戴数据采集设备PMEC,一边进行着摆放瓷盘、瓷筷的动作,一边查看数据生成情况。
这种由采集员直接穿戴硬件设备采集数据的方式称为“人类数据采集”。许晋诚认为,人类数据采集的方法具备独特优势,包括更高的效率和经济性,以及能直接采集稀缺的人类触觉模态数据。
帕西尼基于在多维度阵列式触觉感知领域的技术积累和量产经验,自主研发了PMEC超采技术。数据采集员双手穿戴具有手部全运动自由度和全触觉信号覆盖采集功能的硬件设备,获取操作动作所涉及的多视角视觉、触觉、接触点位姿等信息。这些原始信息经过帕西尼TacFlow Engine工具进行后处理,最后用于VTLA具身智能大模型或HyperCosmos世界模型的预训练。
“目前机器人普遍掌握的动作是抓取、摆放。要应用到更多场景,我们需要把场景中的长程任务拆分成更加细化的工序,甚至是原子动作,目前,机器人执行任务的原子动作库还远远不够。”许晋诚表示。
数据采集间内的训练就是要增加机器人所掌握的原子级技能,从而实现更多精细复杂的任务,如拧螺丝、折叠、熨烫、舀取、切割等。“我们把这些动作进行采集,训练成技能,变成模型,最终给到机器人使用。”许晋诚告诉记者,目前帕西尼天津数据工厂已完成上百种任务的采集,千种任务预计一年内可采集完成。
需要挂号联系客服 北京上海南京广州天津西安医院黄牛号贩子跑腿代挂号