arXiv ID:
2602.15206
arXiv 提交日期: 2026-02-16
MAVRL:通过摊销变分推断从多种反馈类型中学习奖励函数 / MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference
1️⃣ 一句话总结
这篇论文提出了一种名为MAVRL的新方法,能够像侦探综合多种线索一样,将人类提供的演示、比较、评分和停止等不同形式的反馈统一起来,自动学习出更准确、更鲁棒的奖励函数,从而帮助AI智能体更好地理解任务并做出决策。