arXiv最新AI论文速览速学

🔍

reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 365 最新: In Trust We Survive: Emergent Trust Learning 03-19

arXiv ID: 2602.17062

arXiv 提交日期: 2026-02-19

multi-agents reinforcement learning model training value decomposition exploration multi-agent q-learning suboptimal actions softmax policy

在多智能体强化学习中保留次优行动以追踪动态最优解 / Retaining Suboptimal Actions to Follow Shifting Optima in Multi-Agent Reinforcement Learning

1️⃣ 一句话总结

本文提出了一种名为S2Q的新方法，通过让智能体在学习时记住多个有价值的备选行动，有效解决了传统多智能体协作算法因环境变化而陷入次优策略的问题，从而提升了系统的适应性和整体表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16629

arXiv 提交日期: 2026-02-18

reinforcement learning theory model training temporal difference learning average reward convergence analysis markov decision processes off-policy learning

平均奖励马尔可夫决策过程中差分时序差分学习的几乎必然收敛性 / Almost Sure Convergence of Differential Temporal Difference Learning for Average Reward Markov Decision Processes

1️⃣ 一句话总结

这篇论文为强化学习中用于评估长期性能的平均奖励算法提供了更实用的理论保证，证明了差分时序差分学习在更贴近实际应用的条件下也能稳定收敛。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16555

arXiv 提交日期: 2026-02-18

theory multi-agents reinforcement learning stochastic differential games policy gradient distributed equilibrium linear-quadratic games convergence analysis

线性二次随机微分博弈中的分布式均衡学习：一种α-势能方法 / Learning Distributed Equilibria in Linear-Quadratic Stochastic Differential Games: An $α$-Potential Approach

1️⃣ 一句话总结

这篇论文证明了在多智能体线性二次随机微分博弈中，每个智能体仅依赖自身状态并独立更新策略的梯度学习方法，能够高效收敛到一个均衡点，其收敛速度与智能体数量线性相关，且均衡的近似程度取决于智能体间交互的不对称性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16165

arXiv 提交日期: 2026-02-18

llm agents reinforcement learning hierarchical rl credit assignment multi-turn decision making long-horizon tasks plan-execute framework

HiPER：面向大语言模型智能体的显式信用分配分层强化学习 / HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents

1️⃣ 一句话总结

这篇论文提出了一种名为HiPER的分层强化学习新框架，通过将智能体的决策过程明确分解为‘高层规划’和‘底层执行’两个层级，并设计了一种创新的信用分配方法，有效解决了大语言模型在需要多轮决策、奖励稀疏的复杂任务中训练不稳定和效率低下的问题，在多个交互式基准测试中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15640

arXiv 提交日期: 2026-02-17

systems reinforcement learning agents semantic communication human-in-the-loop latency control constrained markov decision process radio access network

面向语义通信的延迟感知人在环路强化学习 / Latency-aware Human-in-the-Loop Reinforcement Learning for Semantic Communications

1️⃣ 一句话总结

这篇论文提出了一个结合人类反馈和延迟控制的强化学习框架，用于在保证严格时间要求的前提下，优化语义通信系统的传输质量和资源使用效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16063

arXiv 提交日期: 2026-02-17

multi-agents reinforcement learning systems energy markets decentralized systems cooperative learning simulation framework grid stability

MARLEM：一个用于去中心化本地能源市场中隐性合作研究的多智能体强化学习仿真框架 / MARLEM: A Multi-Agent Reinforcement Learning Simulation Framework for Implicit Cooperation in Decentralized Local Energy Markets

1️⃣ 一句话总结

这篇论文提出了一个开源的多智能体强化学习仿真框架，通过让每个能源交易智能体在决策时参考系统整体表现，使它们能在不直接沟通的情况下自发协作，从而提升去中心化能源市场的效率和电网稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15620

arXiv 提交日期: 2026-02-17

llm reinforcement learning model training policy optimization training stability spurious tokens mathematical reasoning fine-tuning

STAPO：通过抑制罕见伪标记来稳定大语言模型的强化学习训练 / STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

1️⃣ 一句话总结

这篇论文发现大语言模型强化学习训练不稳定的根源是极少数‘伪标记’，并提出了STAPO方法，通过选择性屏蔽这些标记的梯度更新，有效提升了训练稳定性和模型在数学推理任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14559

arXiv 提交日期: 2026-02-16

multi-agents reinforcement learning agents dynamic population agent spawning fluid-agent games multi-agent rl population adaptation

流体智能体强化学习 / Fluid-Agent Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为‘流体智能体’的新框架，让强化学习中的智能体能够像细胞分裂或公司拆分部门一样，根据环境需求动态地创建或调整智能体数量，从而解决传统多智能体强化学习中智能体数量固定不变的限制。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15206

arXiv 提交日期: 2026-02-16

reinforcement learning machine learning model training reward learning variational inference multi-feedback bayesian inference imitation learning

MAVRL：通过摊销变分推断从多种反馈类型中学习奖励函数 / MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference

1️⃣ 一句话总结

这篇论文提出了一种名为MAVRL的新方法，能够像侦探综合多种线索一样，将人类提供的演示、比较、评分和停止等不同形式的反馈统一起来，自动学习出更准确、更鲁棒的奖励函数，从而帮助AI智能体更好地理解任务并做出决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14363

arXiv 提交日期: 2026-02-16

robotics reinforcement learning systems humanoid robots loco-manipulation state estimation whole-body control sim-to-real

AdaptManip：基于在线循环状态估计学习自适应全身物体搬运与递送 / AdaptManip: Learning Adaptive Whole-Body Object Lifting and Delivery with Online Recurrent State Estimation

1️⃣ 一句话总结

这篇论文提出了一个名为AdaptManip的自主框架，它通过强化学习训练人形机器人，使其能够在没有人类演示的情况下，仅依靠实时状态估计，就稳健地完成导航、抓取物体并递送的任务，其性能优于依赖模仿学习的方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.17062

1️⃣ 一句话总结

arXiv ID: 2602.16629

1️⃣ 一句话总结

arXiv ID: 2602.16555

1️⃣ 一句话总结

arXiv ID: 2602.16165

1️⃣ 一句话总结

arXiv ID: 2602.15640

1️⃣ 一句话总结

arXiv ID: 2602.16063

1️⃣ 一句话总结

arXiv ID: 2602.15620

1️⃣ 一句话总结

arXiv ID: 2602.14559

1️⃣ 一句话总结

arXiv ID: 2602.15206

1️⃣ 一句话总结

arXiv ID: 2602.14363

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.17062 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16629 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16555 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16165 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15640 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16063 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15620 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14559 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15206 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14363 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.17062

arXiv ID: 2602.16629

arXiv ID: 2602.16555

arXiv ID: 2602.16165

arXiv ID: 2602.15640

arXiv ID: 2602.16063

arXiv ID: 2602.15620

arXiv ID: 2602.14559

arXiv ID: 2602.15206

arXiv ID: 2602.14363