Twist-Teleoperated Whole-Body Imitation System
Paper: TWIST: Teleoperated Whole-Body Imitation System
Abstract
通过全身运动模仿实现人形机器人的遥操作,是迈向通用机器人智能的重要一步,人体运动为控制所有自由度提供了一个理想的接口。然而,大多数现有的人形遥操系统未能实现协调的全身行为,通常仅限于孤立的行走或操作任务。
Teleoperated Whole-Body Imitation System(TWIST,遥操全身模仿系统)是一个通过全身运动模仿实现人形遥操作的系统。
- 通过将人体动作捕捉数据重定向到人形机器人,生成参考运动片段。
- 利用强化学习和行为克隆(RL+BC)的结合,开发出一种稳健、自适应且响应迅速的全身控制器。
通过系统分析,本文展示了如何通过引入特权(privileged)未来运动帧和真实世界动作捕捉(MoCap)数据来提高跟踪精度。
TWIST 使真实世界的人形机器人能够通过单一统一的神经网络控制器实现前所未有的、多功能的、协调的全身运动技能——涵盖全身操作、腿部操作、行走和富有表现力的动作。
Introduction
使人形机器人具备多功能全身灵巧性的一个有前景的方法是模仿人类动作。然而,由于人形机器人与人类之间存在体现差异 (embodiment gap),仅仅模仿离线的人类动作数据对于人形机器人的视觉运动控制是不够的;我们必须构建一个全身遥操系统来获取人形机器人的观察 - 动作数据。
此类系统的一个关键要求是控制器能够自主地将任意实时人类动作转换为平衡的机器人运动,同时紧密匹配人类的行为。为此,我们将全身遥操表述为实 时运动重定向和跟踪问题
- 通过将运动捕捉(MoCap)设备捕获的任意人类动作重定向,推导出跟踪目标——人形机器人的关节位置和根部速度。
- 在大规模模拟环境中使用强化学习(RL)结合人类动作数据训练单一策略。
最终的控制器能够在每个时间步稳健且准确地跟踪目标机器人关节位置和根部速度,同时保持全身平衡。为了应对实时全身运动跟踪和遥操作的实际挑战,训练流程引入了几项关键技术,包括:
- 为了确保遥操的低延迟,RL 策略只能观察当前时间步的参考运动,这与将未来参考运动作为观测值的策略相比,会导致更保守和犹豫的行为。这种犹豫行为在实时遥操系统中被放大,因为人类演示者在人形机器人上体验到犹豫行为时,往往会补偿自己的动作,从而导致无效的遥操控制。为了解决这一问题,提出了一个两阶段的教师 - 学生框架:教师策略在有权访问未来运动帧的情况下进行训练,以学习更平滑的行为,随后指导仅跟踪单帧的学生策略。
- 离线人类动作数据集通常质量高且平滑,而实时人类动作和实时重定向并不那么稳定和平滑,导致在线遥操出现分布偏移。因此使用在线 MoCap 和重定向设置收集了一个小规模的 MoCap 人类数据集(150 个片段),并将其与 15K 离线动作片段结合,作为训练 RL 控制器的训练集。令人惊讶的是,尽管只使用了一小部分在线动作,但控制器在未见测试动作和真实世界遥操作中的表现显著更好且更稳定。
- 在离线重定向人类动作时,可以通过多次优化迭代来确保高质量的动作数据。然而,在遥操作期间的在线重定向时,快速推理至关重要,往往以牺牲平滑性为代价。联合优化 3D 关节位置 和方向有助于缓解这种离线到在线的差距。
- 由于控制器的学习目标仅仅是运动跟踪,因此需要施力的任务(举起盒子)而不是到达目标位置的任务代表了分布外的场景,这会导致控制器偶尔产生抖动行为。为了使控制器能够学习施力,本文提出在末端执行器受到大扰动的情况下训练控制器,这显著提高了在需要接触和施力的任务中的鲁棒性。
Related Works
基于学习的人形机器人全身控制
近年来,基于学习的方法,尤其是从仿真到现实的强化学习,在开发人形机器人的全身控制器方面取得了显著进展,使得人形机器人能够实现一系列技能,例如行走、跳跃、跑酷、跳舞、单脚跳以及跌倒恢复。然而,这些工作大多专注于为单一特定任务开发控制器,限制了其方法的通用性。
人形机器人的遥操系统
遥操是使人形机器人能够与复杂的真实世界环境互动并执行操作任务的关键。先前的研究探索了多种遥操作方式,例如稀疏的虚拟现实关键点、外骨骼、动作捕捉服和基于摄像头的姿态估计。然而,大多数系统显示出有限的协调全身技能,使其不足以用于一般家庭任务。例如,Mobile-TV 和 HOMIE 将上身和下身控制分离,通过操纵杆或脚踏板等外部命令引导运动,但限制了全身任务,如踢球或跨越障碍。
与本工作更密切相关的是,HumanPlus 和 OmniH2O 试图通过训练低级控制器来跟踪人类动作以实现全身遥操作。
- HumanPlus 依赖于基于摄像头的姿态估计,这在根位置精度方面存在挑战,影响了行走的保真度。
- OmniH2O 使用虚拟现实关键点,仅捕捉上身运动,仍然缺乏完整的全身控制。
Method
Curating Humanoid Motion Datasets
大部分数据来自公开可用的动作捕捉(MoCap)数据集——AMASS 和 OMOMO ,这两个数据集总共包含超过 15,000 个片段(大约 42 小时),其中一些不切实际的动作(如爬楼梯)被过滤掉了。
还使用自己的动作捕捉系统收集了一个小型的内部数据集,包含 150 个片段(大约 0.5 小时)。这个内部数据更好地反映了真实世界遥操作的条件,例如噪声和不完美的校准。值得注意的是,并没有设计这些动作来匹配遥操作任务——它们是随机收集的。
由于人形机器人与人类之间存在体现(embodiment)差异,直接跟踪原始人类动作并非易事。相反,将它们重定向到人形机器人格式更容易计算跟踪误差。对于大规模的公开数据集,采用了一个类似于 PHC 的离线重定向器,它优化了关键身体部位的位置,并且本文还优化了时间平滑性。尽管离线重定向可以产生更高质量的动作,但它涉及迭代优化,这使得它不适合实时遥操作。
为了模拟实时遥操的设置,我们在小规模的内部数据集上使用了一个在线重定向器,它使用逆向运动学(IK)方法高效地调整身体方向和脚部位置。尽管这种方法速度更快且适合实时使用,但它通常会导致动作不够平滑,可能会影响遥操的性能。
因此通过增强在线重定向器的优化目标,联合优化 3D 关节位置和方向,来缩小这种质量差距。这一改进减少了离线和在线动作质量之间的差异。
Training A Whole-Body Controller in Simulation
简单的方法通常使用单阶段强化学习(RL)来训练一个可部署的跟踪策略,该策略仅跟踪当前的动作帧。然而,这通常会导致诸如脚滑等伪影,并且无法产生适合遥操作的平滑控制,这主要是由于无法访问完整的动作序列。
相比之下,本系统采用了一个两阶段的方法:
- 通过强化学习训练一个有权访问未来参考动作的特权专家(教师)策略。
- 使用强化学习和行为克隆(BC)联合优化一个可部署的学生策略,该策略仅依赖于本体感知和每个时间步的一个参考帧。
特权教师策略
教师策略