arXiv ID:
2606.27609
arXiv 提交日期: 2026-06-25
训练可观察控制策略:通过动作揭示智能体状态 / Training Observable Control Policies to Expose Agent State Through Actions
1️⃣ 一句话总结
本文提出一种强化学习方法,通过优化奖励函数来训练智能体,使其在执行任务时做出的动作能更清晰地暴露其内部状态,从而在缺乏直接通信的情况下帮助外部观察者或协同系统准确推断智能体的状态,且对原有任务表现影响很小。