近日,在计算机视觉与模式识别领域顶级会议CVPR 2025举办的RoboTwin双臂机器人竞赛中,地平线机器人实验室与清华大学计算机系朱军团队联合提出的H-RDT凭强大性能和领先成功率,一举斩获真机赛冠军(一等奖第一名),并在仿真赛中荣获亚军(一等奖第二名),为全球机器人学习领域提供了高效解法。
作为全球人工智能领域最具影响力的顶级会议之一,CVPR每年汇聚学术界与工业界的最新研究成果,引领计算机视觉发展前沿。2025年CVPR中的第二届MEIS研讨会以“生成式人工智能时代的多智能体具身系统”为焦点,发起并举办了RoboTwin双臂协作挑战赛,成为全球首个专注于“建图-感知-操作”全链条能力的权威机器人竞赛,吸引了全球众多科研团队参与。
比赛聚焦于双臂机器人的复杂操作能力,要求参赛模型在仿真与真实环境中完成一系列高难度任务,包括但不限于柔性物体操作、空间推理、双手协作等,全面评估机器人的智能水平与操作精度。在真机赛环节,机器人需在真实世界中完成指定任务,如叠毛巾、精准放置物品等,对模型的泛化能力、环境适应性和操作稳定性提出了极高要求。仿真赛则侧重于模型在虚拟环境中的多任务处理能力。
面对通用机器人操作数据的规模与泛化问题,地平线机器人实验室联合清华大学计算机系朱军教授团队提出了从海量人类操作数据中学习的VLA模型H-RDT (Human to Robotics Diffusion Transformer) ,能够利用带有3D手部位姿标注的人类操作视频增强机器人操作能力,为通用机器人操作技能的规模化学习提供了新范式。
(点击文末“阅读原文”可获取论文链接)
技术和架构创新,实现跨本体迁移与高效动作生成
不同机器人本体和动作空间的差异导致统一训练困难,现有数据集规模有限且质量参差不齐。这些问题从根本上制约了通用机器人操作数据的规模与泛化能力。
H-RDT模型采用独特的两阶段训练范式用于实现跨本体部署。首先在大规模第一人称人类操作数据上进行预训练,构建共享动作表征空间;随后通过模块化动作编解码器在机器人数据上进行微调,实现跨本体迁移。这一设计有效解决了不同机器人本体和动作空间差异导致的统一训练难题,显著提升了模型的泛化能力。
在架构方面,H-RDT基于一个具有20亿参数的扩散Transformer架构,配备专门的动作编码器和解码器,利用流匹配方法建模复杂的动作分布,实现了更优的训练稳定性与推理效率。为解决人类与机器人之间的差异,团队采用了精细的3D手部姿态表示方法,将动作编码为紧凑的48维向量,以捕捉关键的双手灵巧操作信息,为机器人操作提供了丰富的“上层动作空间”指导,显著提升了策略的泛化能力,有效缓解了不同机器人之间的差异问题。
在真机实验中,H-RDT模型在Aloha-Agilex-2.0、双臂ARX5、UR5+UMI三种真机设置上展现了领先的性能和出色的跨本体迁移能力。下面4个表格给出了详细的测试指标。
表1 H-RDT在Agilex2.0真机叠毛巾任务中的表现
表2 H-RDT在Agilex2.0真机挂杯子任务中的表现
表3 H-RDT在ARX5真机少样本实验中表现出优越的样本利用效率
表4 H-RDT在双UR5+UMI真机实验中在每个子任务上都表现出优越的性能
在仿真实验中,H-RDT在RoboTwin 2.0基准测试的45项任务上取得了87.2%的平均成功率,显著优于RDT、π0等基线方法,证明了其在多任务处理中的领先优势。
优异的实验结果充分验证了H-RDT模型的技术先进性和实用性,为其在实际应用中的推广奠定了坚实基础。
前景广阔,H-RDT模型赋能多领域智能化升级
H-RDT模型的成功,为机器人学习领域提供了新的研究思路与技术路径。通过利用海量人类操作数据预训练,H-RDT模型能有效缓解大规模高质量机器人演示数据稀缺的问题,为通用机器人操作数据的规模与泛化能力提升开辟了新途径。这一创新方法不仅在学术上取得了突破,更在具身智能技术的实际应用中展现了巨大潜力。
H-RDT模型的跨本体迁移能力与少样本学习效率,为机器人在不同场景下的快速适应与高效操作提供了可能,有望推动智能家居、工业制造、医疗护理等多领域的智能化应用升级。
作为机器人产业界的重要推动者之一,地平线在人工智能学习领域积累了深厚的技术底蕴,展现出强大的创新能力。早在2023年,由地平线学者作为一作公开发表的业界首个端到端自动驾驶大模型UniAD,便荣获CVPR 2023最佳论文奖,现已成为行业端到端技术的Benchmark。而此次H-RDT模型在CVPR 2025 RoboTwin双臂机器人竞赛中的出色表现,更是地平线在人工智能领域持续深耕、不断突破的又一有力见证。
地平线认为:“真正的智能是说每一辆车、每一个电器都具有环境感知、人机交互和决策控制的能力”。随着技术成熟与应用深化,以H-RDT模型为代表的创新技术将助力具身智能技术拓展更广泛的发展与应用。未来,地平线将继续秉承创新驱动发展的理念,坚持“赋能智能汽车和机器人,让人类生活更安全、更美好”的愿景,加大在机器人和智能汽车领域的技术研发投入,不断探索新技术、新应用,为推动全球智能化技术普惠贡献更多力量,真正实现“让机器的归机器,人的归人”。