arXiv最新AI论文速览速学

🔍

标签: #trust region ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 117 72小时内新更新论文 72h更新 255 最新: Low Variance Trust Region Optimization with Independent Actors and Sequential Updates in Cooperative Multi-agent Reinforcement Learning 06-27

arXiv ID: 2606.25526

arXiv 提交日期: 2026-06-24

reinforcement learning multi-agents cooperative multi-agent trust region advantage estimation variance reduction sequential updates

低方差信任域优化：合作多智能体强化学习中的独立智能体与顺序更新 / Low Variance Trust Region Optimization with Independent Actors and Sequential Updates in Cooperative Multi-agent Reinforcement Learning

1️⃣ 一句话总结

本文提出一种新的裁剪目标函数，用于解决合作多智能体强化学习中，独立智能体顺序更新时优势函数估计方差过高的问题，从而在确保稳定收敛的同时，在多个基准任务上取得了优于现有方法的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.03382

arXiv 提交日期: 2026-06-02

reinforcement learning machine learning proximal policy optimization trust region non-stationary environments gaussian kernel policy optimization

局部引导，全局影响：高斯重塑信任区域实现行为转变 / Local Guidance, Global Impact: Gaussian-Reshaped Trust Region Unlocks Behavior Transitions

1️⃣ 一句话总结

本文发现PPO算法在非平稳环境中因缺乏几何感知而难以实现有效的行为转变，进而提出一种基于高斯核重塑信任区域的新方法GTR，通过非单调的约束机制在保持局部稳定性的同时允许必要的大规模策略更新，从而显著提升机器人控制、游戏探索和语言模型训练等复杂场景中的适应能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03635

arXiv 提交日期: 2026-02-03

llm reinforcement learning model training trust region entropy regularization exploration ppo reasoning

TRE：在信任区域内鼓励探索 / TRE: Encouraging Exploration in the Trust Region

1️⃣ 一句话总结

这篇论文提出了一种名为‘信任区域熵’的新方法，通过将探索限制在模型可信的范围内，有效解决了大语言模型在强化学习中因盲目探索而性能下降的问题，并在数学推理等多个任务上取得了更好的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.25526

1️⃣ 一句话总结

arXiv ID: 2606.03382

1️⃣ 一句话总结

arXiv ID: 2602.03635

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.25526 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.03382 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03635 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.25526

arXiv ID: 2606.03382

arXiv ID: 2602.03635