行业资讯 | 人形机器人的技术演进
(一)人形机器人技术高度集成,多角度实现对人模仿
从技术角度来看,人形机器人主要由“大脑”、“小脑”和“肢体”三个部分组成。
“大脑”负责实现环境感知、行为控制、人机交互等任务级能力,目前主要是基于人工智能大模型技术,同时也可通过云边协同,提高机器人的智能水平。
“小脑”负责控制人形机器人的运动,目前主要基于人工智能、自动控制、机器人操作系统(ROS,RobotOperating System)等技术,实现复杂环境下的运动控制。
“肢体”负责实现高动态、高爆发、高精度运动,集成了人体运动力学、机械结构设计、新材料、传感器等诸多技术,包括仿人机械臂、灵巧手、腿足等关键结构,并通过集成传感器和长续航动力单元,实现能源-结构感知一体化。
(二)人形机器人整机加速发展,创新产品不断涌现
全球方面,目前美国特斯拉、Figure AI、波士顿动力已成为国外人形机器人整机产品第一梯队,其他 1X、Digit 等欧美产品为第二梯队。
整体上看,其产品智能化水平和综合性能较高,特斯拉和亚马逊的产品已步入场景测试阶段。特斯拉 Optimus 系列机器人。特斯拉公司于 2022 年 10 月正式发布 Optimus 第一代(Gen 1),使用了与特斯拉电动车相同的 FSD 系统,具备强大的计算机视觉处理能力。Optimus Gen 1 身高约 173 厘米,重量约 73 公斤,采用全电驱动,具有行走、挥手和跳舞等功能。
在结构方面,Optimus Gen 1 身体具有 28 个自由度,包括 14 个旋转自由度和 14 个线性自由度。在此基础上,其灵巧手具有 6 个主动自由度和 5 个被动自由度。2023 年 12 月,特斯拉发布了 Optimus 第二代(Gen 2),重量减轻到 63 公斤,颈部增加了 2 个自由度,步行速度提升了 30%,平衡感和身体控制能力得到改善,能够完成非平坦地形下的行走,包括爬楼梯等复杂动作。精细操作方面,Optimus Gen 2的所有手指都配备了触觉传感器,能够轻松准确地抓取和放下鸡蛋,展示出精巧的双手操控能力。波士顿动力 Atlas 系列机器人。
波士顿动力公司于 2013 年发布的第一代 Atlas 人形机器人由外置电驱动液压动力系统提供动力,高183 厘米,全身 28 个液压驱动关节,能够实现碎石路面下的稳定行走。2016 年发布的配备了机载液压动力系统的 Atlas 机器人,能够实现雪地、山地行走,可在倒地后迅速起身,并具备双臂协同搬运重物的能力。
后续,该系列机器人完成了立定跳跃、跳高、跳转身、后空翻、慢起手倒立、前滚翻、前空翻、原地 180°空中转体、分腿跳、360°空中转体等一系列能力。2024 年 4 月,波士顿动力宣布液压版 Atlas退役,并推出了纯电驱的新款 Atlas 机器人,能够完成稳定的行走、起身和 180°头部、腰部旋转等动作。Figure AI 公司系列人形机器人。
2023 年 3 月 14 日,Figure AI 发布的人形机器人 Figure 01,利用 OpenAI 的大型语言模型,可以与人类进行正常的完整对话,并具备分类识别物品的能力,被认为是世界上第一个具有商业可行性的自主型人形机器人。
2024 年 8 月 6 日Figure AI 发布的新一代产品 Figure 02,与上一代相比,Figure AI 拥有 16 个自由度的第四代机械手,负载能力与人类水平相当,可以抓取 25 公斤的物体,比上一代增加 5 公斤。
同时,Figure 02 的机载计算和 AI 推理能力提高了 3 倍,能够完全自主地在现实世界中执行任务。相比之下,国内企业采用“整机集成、关键零部件自研”的路线,快速推进整机产品迭代,产业迅速发展,产品不断涌现。目前,已发布数十款人形机器人产品,具备较为稳定的行走、跑跳、站起等基本功能,在技术方面已有一定积累,与国外无明显代际差异。优必选的Walker S1 在环境感知与物品抓取方面取得了一定进展,已进入比亚迪工厂实训,与 L4 级无人物流车、无人叉车、工业移动机器人和智能制造管理系统协同作业。
(三)“大脑”技术路线并行探索,具备初阶人类脑力
1.大模型是现阶段“大脑”的最佳解决方案
目前人形机器人“大脑”技术以大模型为核心,为人形机器人提供任务级交互、环境感知、任务规划和决策控制能力。在任务交互方面,基于大模型的语言/视觉运行处理方式可为人形机器人提供任务级交互入口。在环境感知方面,大模型通过对多模态信息的统一处理与灵活转换,推动多模态感知泛化。在任务规划方面,大模型潜在的真实世界知识学习能力、强大的思考、推理和生成能力为“大脑”的任务规划提供基础。
在决策控制方面,人形机器人基于大模型技术并优化奖励策略,通过整合环境、运动等多样化信息,实现决策控制功能。从功能需求角度出发,人形机器人的“大脑”大模型需要具备以下能力:实时交互能力。人形机器人需要具备与人类实时的任务级交互能力,快速理解人类通过语言、手势等方式给出的指令,并有效执行。
当出现指令理解不清或任务执行完毕后,可以与人类进行进一步的多轮交互。多模态感知能力。为了在复杂环境中做出正确决策,人形机器人需要能够通过视觉、听觉、触觉等多种感官获取信息。大模型需要整合这些多模态感知数据,以实现对环境的全面理解。自主可靠决策能力。人形机器人在执行任务时,需要能够理解任务的复杂性,并将其分解为一系列可执行的子任务。这要求大模型具备强大的语言理解能力和对物理世界的深刻理解。
例如,机器人可能需要理解“清理房间”这一任务,包括识别哪些物品需要移动,哪些需要丢弃。涌现和泛化能力。除了在训练数据上的表现,大模型还应具备超出训练范围的执行能力。具体表现为人形机器人能够在未见过的新环境中执行任务,适应新的、未知的情况。面对新挑战时,展现出创新性的解决方案。
2.人形机器人大模型多技术路线并行探索
从技术路线上看,目前基于大模型的“大脑”技术路线正处在并行探索阶段,并逐渐向端到端的大模型演进。现阶段主要是 4 条技术路线,一是 LLM(大语言模型)+VFM(视觉基础模型),实现人机语言交互、任务理解、推理和规划,目前最为成熟。主要代表是谷歌的SayCan 模型,通过预训练技能的价值函数对齐(Grounds)大语言模型或者通过价值函数的训练使大语言模型对用户指令进行推理分解获得任务步骤。二是 VLM(视觉-语言模型),弥合语言与视觉理解间的差距,实现更准确的任务规划和决策。
主要代表是清华大学的 CoPa模型,利用嵌入在基础模型(比如视觉语言模型的代表 GPT-4V)中的常识知识为开放世界机器人操控生成一系列的自由度末端执行器姿势,生成的操控任务分为任务导向抓取和感知运动规划。三是 VLA(视觉-语言-动作模型),在 VLM 基础上增加运动控制,解决机器人运动轨迹决策问题。
主要代表是谷歌的 RT-H 模型,学习语言和运动,并使用视觉上下文,通过利用语言-视觉-动作结合的多任务数据集学习更强大和灵活的动作策略。四是多模态大模型,实现对物理世界环境的全面感知,是未来的主要研究方向。主要代表是麻省理工、IBM等共同研究的 MultiPLY 模型,将视觉、触觉、语音等 3D 环境的各类特征作为输入,以形成场景外观的初步印象,并通过多视图关联将印象中的输出融合到 3D,最终得到以对象为中心的场景特征。
此外,类脑智能和脑机接口等创新技术也为人形机器人“大脑”的解决方案带来无限可能。类脑智能是人工智能技术的进一步延伸,是通过对人脑生物结构和思维方式进行直接模拟,使智能体能够像人脑一样精确高效处理多场景下的复杂任务,是未来有望代替大模型的新技术路线。脑机接口是在人脑与外部设备间建立连接通路的技术,实现人脑与外界设备的信息交换。未来有望基于脑机接口实现“大脑”的“人+机”混合智能。
3.人形机器人“大脑”向更高级的智能化和自主化发展
当前,人形机器人“大脑”刚刚具备初阶人类脑力,仅能完成人的部分工作,无法形成人类大脑全能力闭环。同时,其情感表现属于模拟层面,不具备情感理解能力。
基于大模型的“大脑”技术发展主要受限于数据和训练平台。数据方面,由于真实数据采集难度大,仿真数据保真度和规模有限,较难形成“数据飞轮”效应。平台方面,“大脑”的研究涉及数据采集、模型开发部署和仿真环境测试的整个流水线链路,需要强大的通用计算平台提供大规模计算支撑和通用服务能力。
人形机器人作为人工智能的前沿应用领域,其发展速度令人瞩目。然而,要实现真正的智能化和自主化,现有的大模型仍需在多个方面重点发力。一是在感知模态维度方面形成突破。当前的人形机器人大模型主要依赖于视觉或语音感知,这种单一的感知模态在处理复杂环境时显得力不从心。例如,在嘈杂的环境中,仅凭视觉信息,机器人可能难以准确识别和响应。为了克服这一局限,未来的大模型需要整合视觉、听觉、触觉等多种感知模态。多模态感知能够提供更丰富的环境信息,使机器人在复杂场景中做出更准确的决策。
例如,结合听觉和触觉信息,机器人可以更好地理解人类的指令和情感状态。二是在指令生成速度与复杂性方面形成突破。现有的大模型在生成指令时速度较慢,且生成的结果往往过于简单。这在需要快速反应的场景如紧急救援或复杂操作任务中,可能导致机器人无法及时作出正确响应。目前主流机器人大模型偏向于任务理解和拆分,对于机器人运动控制的涉及较少,只是用预设的端到端的训练方式生成了简单且离散分布的机械臂末端位置和底盘移动指令,未渗透到连续路径和轨迹规划等更偏机器人领域的内容。
三是在泛化能力提升与模型架构优化方面形成突破。泛化能力是大模型在新环境和新任务中表现的关键。当前的模型在泛化能力上仍有待提高,尤其是在面对未知环境和任务时,模型的表现往往不尽人意。为了提高泛化能力,未来的大模型需要在架构、训练方法和数据集方面进行创新。例如,通过引入元学习、迁移学习等技术,可以使模型更好地适应新任务。同时,构建更多样化的数据集,也有助于模型学习到更广泛的知识。
(四)“小脑”加载人工智能技术,运动方式更加拟人
1. “小脑”运动控制包括基于模型的控制方法和基于学习的控制方式两个大类
“小脑”的运动规划与控制是人形机器人实现自然和流畅动作的关键。传统的基于模型的控制方法通过建立机器人的运动学和动力学模型,进行运动轨迹规划和平衡控制,特点是身体控制稳健,步频较慢,代表算法有零力矩点(ZMP,Zero Moment Point)算法、线性倒立摆(LIP,Linear Inverted Pendulum)算法、模型预测控制(MPC,Model Predictive Control)算法、中心引力优化(CFO,Central ForceOptimization)算法等,但整体开发较为复杂,成本高,不利于产品快速迭代。
基于学习的控制方法则使用端到端的人工智能技术,代替复杂的运动学模型,大幅度降低了“小脑”开发难度、提升了迭代速度,一般通过人类示教或自主学习建立运动执行策略。其中通过人类示教的方式也称为模仿学习,指通过人或者其他专家提供反馈示教的方式,使机器人以产生与示教相似的行动策略进行学习,效果依赖高质量示范数据。
通过自主学习的方式也称为强化学习,指通过精心设计学习目标,机器人不断在环境中探索逐渐发现最大化奖励的方式学习到最优的执行策略,效果依赖于仿真环境。目前主要的“小脑”技术路线包括以下几种。
基于模型的控制方法:
ZMP 判据及预观控制。基于简化的倒立摆模型/小车模型进行质心点运动规划和控制。该算法需要精确的动力学模型和复杂的在线控制策略,扰动适应性差。典型代表有日本本田、AIST 的相关产品。
混杂零动态规划方法。通过在全身动力学模型上采用非线性控制,根据状态选择步态,进行轨迹跟踪控制。该算法需要精确的动力学模型和线性化反馈,实时求解慢,对复杂环境适应性差。典型代表有美国俄勒冈州立大学的相关产品。
虚拟模型解耦控制。将控制解耦为速度、姿态、高度等,建立弹簧阻尼等虚拟模型进行力矩控制。该算法降低了对精确动力学模型的依赖,但融合复杂,对复杂环境的容错能力有限。典型代表为波士顿动力的相关产品。
模型预测控制+全身控制。基于简单/复杂的动力学模型进行力的预测控制,进而全身优化,可实现臂足协同及物体接触。该算法依赖精确动力学模型和状态估计,线性模型仅适用于下肢单一步态的控制,而非线性模型求解速度慢。典型代表有美国麻省理工学院、瑞士苏黎世联邦理工大学和波士顿动力公司的相关产品。
基于学习的控制方法:
强化学习。通过奖励设计和仿真环境设计,实现了受控步态、奔跑、转弯、上下台阶等运动学习,提升运动的鲁棒性,并可以通过采用因果 Transformer 模型,从观测和行动的历史中对未来行动进行自回归预测来训练。典型代表如 Agility Robotics 的相关产品。
模仿学习。采用非线性最优化求解的动作映射,以人机关节轨迹相似为目标,以机器人可执行性、安全性、稳定性判据为约束,规划运动方案。该算法计算耗时长,严重依赖初值,对碰撞检测难以解析计算。典型代表有日本 AIST、北京理工大学的相关产品。
2.人形机器人“小脑”向基于学习的控制方法演进
传统的机器人控制方法依赖于精确的动力学模型和专家知识,难以适应非结构化环境的不确定性和复杂性。近年来,学习型控制的发展使得机器人能够从数据中学习控制策略,但其泛化能力和鲁棒性仍难以满足复杂场景需求。大模型为机器人控制引入了丰富的先验知识和泛化能力,有望进一步突破传统控制方法的局限性。整体上看,目前人形机器人的“小脑”核心技术正在从基于模型的控制方法向基于学习的控制方法演进。
在强化学习领域,大模型为引入先验知识和提高样本效率提供了新的思路。以 LanguagePlan 为例,该模型利用 GPT-3 根据任务描述生成抽象的行动计划,如“先走到门口,然后打开门,再走出房间”。然后,LanguagePlan 将该行动计划嵌入到状态空间中,作为额外的观察信息,用于训练一个分层强化学习智能体。
实验表明,LanguagePlan能够显著提高样本效率和泛化性能,加速复杂任务的学习。类似地,LOFT、T-EBM 等模型也展示了利用语言模型引导策略学习的能力。在模仿学习方面,视觉-语言模型为机器人学习复杂技能提供了新的范式。以 CLIP-ASAP 为例,该模型首先利用 CLIP 将视频帧编码为语义特征,然后通过因果语言建模学习动作与视觉变化之间的关系。在控制阶段,CLIP-ASAP 根据语言指令和当前视觉观察,预测下一时刻的关键帧,并将其传递给低层控制器执行。
实验表明,CLIPASAP 能够学习复杂的长期技能,如烹饪、家政等,且具有很强的泛化能力,能够根据不同的指令组合技能。类似地,R3M、Pix2R 等模型也展示了利用视觉-语言对齐进行模仿学习的能力。尽管大模型在机器人控制中展现出了广阔的应用前景,但如何进一步提高其实时性、鲁棒性和可解释性仍然是亟待解决的问题。此外,如何将控制与感知、决策和规划更紧密地结合,构建端到端的自主系统,也是未来的重要研究方向。
(五)“肢体”多技术融合发展,技术路线逐步收敛
“肢体”是人形机器人实现所有拟人功能的载体和基础,主要包括执行机构、芯片、传感器、电源、新材料方面的诸多先进技术。
1.执行机构
目前,“肢体”执行机构的核心驱动技术路线已由传统的液压驱动方式全面转为电驱动。液压驱动技术依赖于液体压缩泵产生高压液体,进而驱动输出机构。主要优点是力量输出大、易于扩展,但也存在控制技术复杂、能量效率相对较低、系统零件多、成本高、故障率高、维护维修繁琐、响应速度不够快等诸多问题。
液压驱动的代表产品主要是波士顿动力在 2024 年前的一系列人形机器人产品。电驱动技术以各类电机作为动力输出机构。其优点是成熟可靠、寿命长、鲁棒性好、成本相对较低、易于控制、响应速度快、能量转化效率高等,主要缺点是本身扭矩密度较低,通常需要搭配减速器使用。目前以特斯拉 Optimus 为代表的新一代人形机器人均采用电驱动技术。
2024 年 4月波士顿动力正式放弃传统的液压驱动路线并发布了该公司首款电驱动人形机器人,标志着驱动技术全面向电驱动路线收敛。人形机器人的执行机构主要包括旋转执行机构、线性执行机构、末端执行机构三类。
旋转执行机构多用于人形机器人关节处,如手腕、膝关节,主要由电机和减速器组成,核心零部件是无框力矩电机、行星减速器和谐波减速器等。目前主流的技术路线有两条。一是高减速比(TSA&SEA,traditional stiffness actuator&series elastic actuator)方案,由高转速低扭矩电机+谐波减速器组成,优点是输出扭矩大、精度高,可实现精准的运动控制。
目前,谐波减速器减速比为 50-300,并且体积紧凑,在扭矩密度提升层面更具优势,“下肢”应用较多。缺点是减速器体积和质量要求高,力控需要力矩传感器,成本高。二是准直驱(PA,proprioceptive actuator)方案,采用高扭矩电机+低减速比行星减速器,优点是行星减速器刚性传动可反算力矩,不需要额外传感器,行星减速器成本约为谐波减速器的 1/5,整体成本较低,在其负载范围内时,是最经济的选择。缺点是扭矩电机成本高,体积大,且扭矩密度的进一步提升只能通过增大尺寸,同时该方案对散热有较高要求。
线性执行机构多安装于机器人上臂、大腿及肘部,可理解为旋转执行器的线性转换,通常实现伸展、推拉等直线运动,主要通过梯形丝杠、滚珠丝杠或行星滚柱丝杠实现。
其中,行星滚柱丝杠具有更高的承载力、更长的使用寿命及更小的体积,是线性执行器目前及未来的主要技术趋势,但行星滚柱丝杠的成本远高于其他类型丝杠。特斯拉的 Optimus 的线性执行器即采用了反向行星滚柱丝杠技术,承载能力强,寿命长,比常规滚珠丝杠提升一个数量级。
Optimus 整机采用了 14 个线性执行器,包含 4 根梯形丝杠(约 100 元/副)及 10 根行星滚柱丝杠(约 10000 元/副),占总成本约 10%末端执行机构可分为爪手类和工具类,爪手类从各类夹持器已进化为多指灵巧手。目前全球灵巧手处于技术突破阶段,研发重点是系统简化和小型化、提高鲁棒性和自由度、多感知能力融合。
目前灵巧手的主流技术路线是使用电机驱动和连杆传动,结构形式上正逐步向驱动器混合置方向发展,空心杯电机是灵巧手的核心部件。来源:中国信息通信研究院图 6 人形机器人三大执行机构。
2.芯片
人形机器人的芯片主要包括处理器芯片、控制芯片和总线管理芯片,其中处理器芯片是其功能实现的核心。
目前人形机器人处理器芯片的主流技术是技术路线最成熟的 CPU+GPU 方案。特斯拉人形机器人搭载的FSD芯片即采用该路线,并与汽车自动驾驶共享底层技术。单个芯片算力 72TOPS,是市场上唯一从底层出发为自动驾驶和深度神经网络所设计的芯片,其中 CPU 做控制,GPU 做图像处理,NPU为神经处理单元,并集成了大量的计算单元和专门的神经网络加速器,能够高效地进行复杂的计算和推理任务,完全适用于人形机器人。同时,人形机器人的处理器芯片还可通过 CPU+FPGA、CPU+ASIC 等方案实现。
CPU+FPGA 方式,由于 FPGA 的开发流程简单,具有较短的研究周期和较低的成本,但流片成本高昂。同时 FPGA 功耗较高,不适用功耗敏感的应用。CPU+ASIC 方式,通过数字“类存算一体”方式实现 MAC 操作,在电路级实现“存算一体”,该路线运行稳定性较高,但并行性和能效比要低;同时也可以采用本身具有存储和计算功能的固定存储器(NVM),实现器件级“存算一体”,单位器件可具有多级状态,发展潜力巨大。
3.传感器
大量传感单元是实现复杂感知功能、与环境交互的基础。人形机器人所需的传感器类型包括六维力传感器、关节扭矩传感器、拉压力传感器、指尖测力传感器、视觉传感器、触觉传感器、惯性测量单元、接近觉传感器、距离传感器等多种类型。
六维力传感器可以测量力和力矩,对于实现人形机器人的运动控制规划、姿态调整、力度感知和精确操作至关重要,通常安装在人形机器人的手腕、脚踝、足底或手部,用来提升操作的灵活性和行走的稳定性。关节扭矩传感器通常安装在人形机器人的上下肢关节处,用于测量关节所受到的力,实现输出力的主动控制。拉压力传感器用于测量拉力和压力,一般安装在人形机器人小臂、腿部和灵巧手等位置的线性执行器上。
指尖测力传感器多应用于灵巧手上,实现加载力位置的实时判定及反馈。视觉传感器可以获取周围环境的图像信息,实现目标识别、位置定位等功能,一般采用 CCD 相机、CMOS 相机等。触觉传感器可以感知外部压力、温度和其他物理参数,可以形成类似于人类皮肤的触觉感知层。惯性测量单元一般由加速度计、陀螺仪和磁力计组成,可以实时测量物体的加速度、角度和磁场方向。接近觉传感器用于检测物体是否接近以及接近的距离,用于控制人形机器人的位置、识别路径、障碍急停等。
距离传感器则用于测量人形机器人与物体之间的距离,实现避障、定位等功能,包括激光、超声波、红外线等实现方式。以特斯拉的人形机器人为例,一台人形机器人需要 1 套视觉传感器、1 套位置传感器、14 个一维力矩传感器、14 个一维压力传感器、4个六维力矩传感器、10个MEMS(Micro-Electro-Mechanical System,微机电系统)触觉传感器(手指部位)、1 套薄膜传感器。目前传感器方面的整体趋势是向多维度、高精度、高集成度、高延展性方向发展,高维力矩传感器和高维触觉传感器是传感器方面的当前研究重点。
4.电源
人形机器人需要高性能的电源来提供持久的动力。Figure AI 公司发布的 Figure 02 人形机器人搭载 2.25 KWh 的电池组,一次充电可以运行 5 小时。我国目前大部分人形机器人的运行时间通常为 2-4 小时。
电源包括电池和电源管理系统两部分。电池方面,目前锂离子电池是主流,但其在能量密度、循环寿命等方面仍无法满足未来人形机器人长时间、高负荷工作的要求。国内企业如宁德时代等正在研发更高性能的电池技术。电源管理系统方面,主要用于监控电池状态,优化能源使用,确保人形机器人在各种工况下都能稳定运行。国内在电源管理系统的研发方面也在不断加强。
5.新材料
人形机器人的新材料主要应用在骨骼、外壳等方面。该部分是支撑人形机器人进行各种行动的基本框架,其应用场景包括外壳材料、脊椎、大臂、小臂、大腿、小腿等结构件。目前人形机器人“肢体”骨骼的常用材料包括钢材、铝合金、镁合金、碳纤维、工程塑料等。在保证机器人功能的先进性、稳定性、使用可靠性和服役安全性的前提下,采用轻量化材料,结合结构优化设计、先进制造工艺,可使机器人构件轻量化,能够提高机器人的机动灵活性,保证机器与人类一起协作工作时不会受到机器的伤害等问题。
目前,聚醚醚酮(PEEK)在人形机器人“肢体”方面具有较大的应用潜力,可以满足人形机器人本体轻量化的要求,大幅提高人形机器人灵活性和工作效率,减轻其运动惯性,提高安全性。采用了 PEEK 材料的特斯拉 Optimus Gen2 较上一代重量减轻 10kg,步行速度提升 30%。
文章来源:机器人研究