📄 论文总结
残差离策略微调:结合行为克隆与强化学习的机器人控制方法
ResFiT: Residual Fine-Tuning Combining Behavior Cloning and Reinforcement Learning
1️⃣ 一句话总结
该论文提出了一种结合行为克隆和强化学习优势的残差学习框架ResFiT,通过在冻结的基础策略上学习轻量级残差校正,实现了在真实世界双手机器人上的高效强化学习训练。
2️⃣ 论文创新点
1. 残差离策略微调(ResFiT)
- 创新点是什么:两阶段方法:先用行为克隆训练基础策略并冻结,然后用强化学习学习残差策略来校正基础动作
- 与已有方法的区别/改进:避免了直接优化大型行为克隆模型的复杂性,实现了样本高效策略改进
- 为什么有意义:为在真实世界部署强化学习提供了一条实用路径,特别适用于高自由度系统
2. 稀疏奖励学习
- 创新点是什么:仅需稀疏二元奖励信号即可有效改进策略
- 与已有方法的区别/改进:降低了对密集奖励设计的需求,简化了实际应用
- 为什么有意义:使强化学习在真实机器人上的应用更加可行
3. 动作分块行为克隆
- 创新点是什么:基础策略预测未来k步动作序列而非单步动作
- 与已有方法的区别/改进:减少任务视野,缓解模仿学习中的误差累积问题
- 为什么有意义:提高行为克隆策略的初始性能
3️⃣ 主要结果与价值
实验结果亮点
- 在模拟环境中比现有方法提升样本效率约200倍,收敛步数从4000万步减少到20万步
- 在真实世界双手机器人任务中,WoollyBallPnP任务成功率从14%提升到64%,PackageHandover任务从23%提升到64%
- 首次在29自由度的双手机器人上实现完全真实世界的强化学习训练
实际应用价值
- 方法仅需稀疏二元奖励信号,降低了实际部署的复杂度
- 适用于从简单到复杂的多种操作任务,展示了广泛适用性
- 通过基础策略提供隐式安全约束,提高真实世界部署的安全性
4️⃣ 术语表
- ResFiT:残差离策略微调方法,结合行为克隆和强化学习的框架,在基础策略上使用离策略强化学习进行微调
- 行为克隆(BC):从人类示范中学习控制策略的方法
- 动作分块:策略预测未来多步动作序列的技术
- RLPD:最先进的离策略算法,包含离线和在线数据
- UTD:更新到数据比率,在BoxCleanup等任务中,适中的UTD值(如4)能提供明显收益同时保持稳定
- BC-RL:行为克隆与强化学习的混合方法