Robodual-Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
Paper: https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2410.08001

摘要
对在不同和动态环境中操作的通用机器人系统的日益增长的需求强调了通才(generalist)策略的重要性,该策略利用大型跨实施例数据语料库来促进广泛的适应性和高级推理。然而,多面手将与低效的推理和昂贵的培训作斗争。相反,专家策略是针对特定领域数据制定的,在任务级精度和效率方面表现出色。然而,它缺乏广泛应用的推广能力。受这些观察的启发,我们引入了 RoboDual,一个协同的双系统,补充了通才和专家政策的优点。一个基于扩散变压器的专家被设计用于多步动作展开,精致地以基于 VLA 的多面手的高级任务理解和离散化动作输出为条件。与 OpenVLA 相比,RoboDual 通过引入仅具有 20M 可训练参数的专家策略,在现实世界设置中实现了 26.7% 的改进,在 CALVIN 上实现了 12% 的增益。它仅使用 5% 的演示数据就能保持强劲的性能,并在实际部署中实现 3.8 倍的控制频率。代码将向公众开放。