← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: robotics agents

📄 论文总结

RAPTOR：一种用于四旋翼控制的高度自适应基础策略方法

RAPTOR: A Highly Adaptive Foundation Policy for Quadrotor Control

1️⃣ 一句话总结

RAPTOR是一种通过元模仿学习训练单一神经网络策略的方法，能够实现零样本适应多种不同四旋翼平台，解决了传统RL策略过拟合和Sim2Real差距问题。

2️⃣ 论文创新点

1. 元模仿学习架构

创新点是什么：使用1000个教师策略进行RL预训练，然后蒸馏为单一学生策略
与已有方法的区别/改进：替代传统的领域随机化方法，避免了保守策略问题
为什么有意义：实现毫秒级快速适应，支持多种不同规格的四旋翼平台

2. 隐式系统辨识

创新点是什么：通过上下文序列推理系统动态，无需显式重建系统参数
与已有方法的区别/改进：仅推断与系统输入/输出行为相关的动态参数部分
为什么有意义：实现高效的在线系统辨识，满足实时控制需求

3. 小型化策略部署

创新点是什么：选择隐藏维度为16的小型模型，计算需求低
与已有方法的区别/改进：在资源受限的四旋翼上仅占用<10%的计算能力，留有充足资源用于状态估计和其他任务
为什么有意义：使基础策略能够部署到最微小的微控制器，实现广泛的实际应用

3️⃣ 主要结果与价值

实验结果亮点

在12种真实和模拟四旋翼上成功部署，覆盖31.9g-2.4kg重量范围、65mm-500mm尺寸范围
推力重量比预测准确（MSE为0.047，R²为0.949），实现隐式系统辨识
在未训练过的强物理扰动（如>90°倾斜击打、顶部附加重量）、强风（7-10m/s）和异构螺旋桨配置下仍能稳定控制

实际应用价值

单一策略直接部署于多种四旋翼平台，显著降低部署成本和提高适应性
在资源受限的嵌入式设备上高效运行，适合实际无人机应用
展示了在复杂动态环境中的鲁棒性和适应性，为多智能体系统和动态环境下的鲁棒控制提供可行方案

4️⃣ 术语表

RAPTOR：一种用于四旋翼控制的元学习框架，通过元模仿学习实现零样本适应不同四旋翼平台
Meta-Imitation Learning：元模仿学习，学生策略学习模仿多个教师策略行为的方法，旨在最小化两者输出分布之间的差异
BAPOMDP：贝叶斯自适应部分可观测马尔可夫决策过程，系统参数在episode开始时采样并保持恒定的POMDP变体
零样本泛化：策略能够直接处理训练分布之外的新情况（如未知扰动、异构硬件配置），无需额外训练或适应
推力重量比：无人机推力与总重量的比值，关键动力学参数
GRU：门控循环单元，一种循环神经网络结构，用于处理序列数据
域随机化：通过随机化仿真环境参数来提高策略在真实世界中泛化能力的方法

📄 打开原文 PDF