arXiv ID:
2603.28053
arXiv 提交日期: 2026-03-30
利用视觉-语言嵌入减少基于偏好的强化学习中的专家反馈需求 / Reducing Oracle Feedback with Vision-Language Embeddings for Preference-Based RL
1️⃣ 一句话总结
这篇论文提出了一个名为ROVED的混合框架,它巧妙地结合了廉价的视觉-语言模型和精准但昂贵的专家反馈,通过只在模型不确定时请求专家判断并持续优化模型,在机器人操控任务中大幅减少了80%以上的专家咨询需求,同时保持了甚至提升了学习性能。