arXiv ID:
2606.03382
arXiv 提交日期: 2026-06-02
局部引导,全局影响:高斯重塑信任区域实现行为转变 / Local Guidance, Global Impact: Gaussian-Reshaped Trust Region Unlocks Behavior Transitions
1️⃣ 一句话总结
本文发现PPO算法在非平稳环境中因缺乏几何感知而难以实现有效的行为转变,进而提出一种基于高斯核重塑信任区域的新方法GTR,通过非单调的约束机制在保持局部稳定性的同时允许必要的大规模策略更新,从而显著提升机器人控制、游戏探索和语言模型训练等复杂场景中的适应能力。