在线留言

在线留言

当前账号:河北低空经验数据咨询有限公司
确定 关闭

返回顶部

服务申请

当前账号:李大强
确定 关闭
个人中心
退出登录
当前位置:首页 >行业发布 >成果发布 >行业产品及模型

人工智能智库网络 | 唐剑:大模型时代的具身智能

来源:中国信通院 发布日期:2025-04-15

近日,人工智能智库网络在京举办“推进‘人工智能   +’发展形势及关键路径研讨会”。本次会议汇聚了来自中国信息通信研究院(以下简称“中国信通院”)、北京人形机器人创新中心、阿里云智能集团、蚂蚁集团研究院、腾讯研究院、百度发展研究中心、基础电信运营商、华为、荣耀、小米、理想汽车、高等教育出版社、煤炭科学研究总院、石化盈科等近20个单位的40余位专家学者。会上,北京人形机器人创新中心代表唐剑作了题为《天工开万物:大模型时代的具身智能》的分享,通过总结行业技术进展与产业化探索成果,为具身智能领域的发展提供了前沿思考与实践经验。

一、产业发展现状:技术先行,应用起步 

唐剑指出,尽管人形机器人与具身智能概念热度高涨,但目前产业化、规模化应用仍处于起步阶段,行业更多聚焦于技术研发。今天的机器人可以翻跟头,或者打拳、跳舞,包括跑步、拟人行走,新功能层出不穷。

二、机器人行业痛点:泛化能力亟待提升 

回顾机器人发展历程,唐剑提及“莫拉维克悖论”,即对人类而言复杂的任务,机器人完成起来可能相对容易,反之亦然。以AlphaGo战胜围棋世界冠军,却难以实现机器人稳定开关门为例,凸显AI模型在机器人应用中泛化能力的不足。

唐剑将机器人行业发展痛点归结为三个方面:一是场景化泛化能力弱,现有机器人多局限于特定场景,难以实现跨场景作业;二是任务泛化能力欠佳,面对任务环境和对象的变化,机器人需长时间重新训练;三是本体泛化能力差,传统机器人程序多针对特定本体开发,缺乏通用性。

三、大模型赋能:革新机器人控制模式 

传统机器人控制依赖于数学模型,这种方式虽然可靠性较强,确定性较高,但存在明显的局限性。传统方法需要预编程,导致泛化能力差,并且对环境要求苛刻,依赖结构化环境,难以适应复杂多变的现实场景。唐剑表示,2022年ChatGPT刚出现,那时候他在学校做了很多基于AI的控制方法,最主流的有两类:模仿学习和强化学习。然而,这些方法训练出的模型大多只能掌握单一或少数技能,无法满足实际应用中的多样化需求。

随着2022年底大模型的出现,AI控制方法进一步革新,开启了具身智能时代。唐剑所在团队于2025年3月12日推出了“慧思开物”通用具身智能平台,旨在彻底改变传统机器人应用的开发模式。该平台具备“一脑多能、一脑多机”的显著特性。

“一脑多能”通过构建技能库得以实现。物理世界中的各种任务被拆解为50到100种核心技能,以端到端VLA模型为技术支撑,基于大小脑应用范式,借助分布式多Agent系统,实现高效的任务规划与技能调用。在这个系统中,大脑Agent负责分析用户指令,并将任务拆解为具体的子任务;小脑Agent则承担运控和具身操作的关键职责,紧密连接AI功能与机器人本体,确保指令的精准执行。“一脑多机”则专注于适配各类机器人,极大地降低了开发门槛,使不同类型的机器人都能在该平台上得到有效支持。

唐剑以“烤面包”任务为例,生动展示了平台的工作流程:机器人首先通过视觉感知周围环境,获取面包和烤面包机的位置信息;大脑将“烤面包”任务拆解为多个子任务,如拿起面包、放入面包机、按下面包机按钮等;小脑将这些子任务一一映射为相应技能,调用VLA模型控制机械臂完成精准操作,最终完成烤面包的任务。

四、技术突破:多维度彰显具身智能实力 

(一)通用具身智能平台方面,基于大模型的“慧思开物”具身智能平台,不仅革新了机器人开发模式,还在多个关键技术维度实现了重大突破:

自主学习方面,具身大脑具备独特的快思考推理和慢思考学习能力。它能够通过世界模型模拟各种行动方案,并从中选择最优方案,实现模型的自我迭代和优化。以足球运动员为例,在比赛中运动员需要迅速做出反应,而在赛后则会对比赛中的表现进行反思和总结,具身大脑的这种能力与此类似,能够在实际操作中不断学习和进步。

自动错误处理方面,与传统基于规则的控制方式不同,大模型能够以错误场景为起点重新规划任务。例如,在机器人抓取瓶子的过程中,如果瓶子意外掉落,基于大模型的系统可以迅速识别错误,并重新规划抓取路径,确保机器人能够持续执行任务,大大提高了机器人在复杂环境中的可靠性和适应性。

多技能调用方面,借助Agent系统,平台能够实现多种技能的流畅串联。以往的机器人应用往往局限于单一技能,如单纯的抓取操作。而现在,通过该平台,机器人可以在一个应用中依次完成抓取、扫码、贴标签等多种不同技能的操作,极大地拓展了机器人的应用场景和功能范围。

双臂协同方面,基于VLA模型,平台成功实现了机器人双臂的协同作业。这一突破使得机器人在操作过程中更加灵活高效,能够完成一些需要双手配合的复杂任务。

(二)具身运控方面,创新中心同样取得了令人瞩目的成果。例如,研发的机器人在快速跟跑方面表现出色,峰值速度可达12km/h,甚至计划参加亦庄的半马比赛;还实现了连续攀爬134级台阶的壮举,这在之前是任何机器人都无法做到的,并且能够在雪地、石子地等复杂地形中自如行动,同时具备出色的抗干扰能力,即使受到外界的推搡或球的撞击,依然能够保持稳定运行。

(三)高质量数据方面,为解决具身智能数据匮乏的难题,创新中心开发了全链路数据采集方案,并发布了包含10万条轨迹的高质量开源数据集RoboMIND。该数据集涵盖4种机械臂,覆盖6类操作和479项任务,为行业研究提供了宝贵的数据资源,有力推动了整个行业的发展。针对行业内关于虚拟数据与实采数据的激烈争论,唐剑提出了独到的见解。他认为,虚拟数据和实采数据在具身智能训练中都具有不可或缺的作用。虚拟数据具有采集成本低、数据多样性高的显著优势,能够在虚拟环境中轻松生成各种不同的场景和数据,满足多样化训练的需求。而实采数据则更加贴近真实应用场景,能够为模型训练提供真实可靠的数据支持。通过合理配比两类数据,可以有效提升训练成功率,使机器人在实际应用中表现更加出色。

五、产业展望:结构化场景率先落地 

行业普遍认为2024年是人形机器人元年,北京世界机器人展就发布了约27款人形机器人。2025年则被视为产业化落地元年,目前在汽车制造等工厂已有小规模应用,如优必选机器人在极客工厂、Figure机器人在宝马工厂的协同作业以及机器人搬箱子等应用。创新中心基于慧思开物平台和机器人,包括自研机器人和其他机器人,正探索在科研教育、物流搬运、工业制造等多领域的应用。

唐剑预计,具身智能将率先在结构化、半结构化的工业或泛工业场景落地,随后逐步拓展至商业服务领域,最后进入生活和家庭场景,不过进入生活和家庭场景还需强大的泛化能力提升。

人工智能智库网络简介

人工智能智库网络是以“共商议题、开放研讨、务实推进”为理念,由人工智能领域产学研用领军机构共同发起成立,旨在落实国家顶层设计,凝聚产业发展共识的集智平台,致力于成为人工智能领域创新发展思想引领者。

人工智能智库网络成员单位有中国信息通信研究院、中国新一代人工智能发展战略研究院、清华大学人工智能国际治理研究院、中国电信集团有限公司、中国移动研究院、联通数据智能有限公司、中国电力科学研究院、煤炭科学研究总院、中国中车工业研究院、华为战略研究院、阿里云智能集团、腾讯研究院、百度发展研究中心、蚂蚁科技集团股份有限公司、科大讯飞研究院、北京快手科技有限公司、北京智源人工智能研究院、北京智谱华章科技有限公司。

联系人:

中国信通院

孙老师

sunxin@caict.ac.cn

代老师

daiqiuping@caict.ac.cn