arXiv最新AI论文速览速学

🔍

reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 365 最新: In Trust We Survive: Emergent Trust Learning 03-19

arXiv ID: 2602.20532

arXiv 提交日期: 2026-02-24

llm reinforcement learning model training curriculum learning policy improvement bandit algorithms post-training automated data selection

Actor-Curator：一种通过策略改进老虎机实现协同自适应课程学习的强化学习后训练框架 / Actor-Curator: Co-adaptive Curriculum Learning via Policy-Improvement Bandits for RL Post-Training

1️⃣ 一句话总结

这篇论文提出了一个名为Actor-Curator的自动化课程学习框架，它通过一个智能‘策展人’动态选择训练题目来优化大语言模型的强化学习后训练过程，从而显著提升了模型在复杂推理任务上的性能和训练效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21203

arXiv 提交日期: 2026-02-24

robotics reinforcement learning computer vision sim-to-real visual rl soft actor critic manipulation domain randomization

Squint：用于仿真到现实机器人的快速视觉强化学习 / Squint: Fast Visual Reinforcement Learning for Sim-to-Real Robotics

1️⃣ 一句话总结

这篇论文提出了一种名为Squint的新型视觉强化学习方法，它通过结合并行仿真、分布化评估器等多种优化技术，能在单张GPU上仅用数分钟快速训练出机器人视觉操控策略，并成功从仿真环境迁移到真实机器人上。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20527

arXiv 提交日期: 2026-02-24

reinforcement learning agents model training apprenticeship learning intelligent tutoring systems pedagogical strategies reward learning educational ai

一种用于捕捉演化中学生教学策略的广义学徒学习框架 / A Generalized Apprenticeship Learning Framework for Capturing Evolving Student Pedagogical Strategies

1️⃣ 一句话总结

本研究提出了一种名为THEMES的广义学徒学习框架，它通过少量专家演示来推断并模拟动态变化的教学策略，从而在智能辅导系统中高效地制定出优于现有方法的个性化教学决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20729

arXiv 提交日期: 2026-02-24

reinforcement learning agents theory safe reinforcement learning uncertainty fuzzy logic robust control constrained markov decision process

Fuz-RL：一种用于不确定性下安全强化学习的模糊引导鲁棒框架 / Fuz-RL: A Fuzzy-Guided Robust Framework for Safe Reinforcement Learning under Uncertainty

1️⃣ 一句话总结

这篇论文提出了一个名为Fuz-RL的新框架，它利用模糊数学理论来帮助强化学习智能体在充满不确定性的复杂环境中，既能做出鲁棒的决策，又能有效保障自身安全，从而在性能和安全性之间取得更好的平衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20404

arXiv 提交日期: 2026-02-23

reinforcement learning theory model training active exploration markov decision processes model estimation regret analysis frank-wolfe optimization

κ-探索者：一个用于马尔可夫决策过程中主动模型估计的统一框架 / $κ$-Explorer: A Unified Framework for Active Model Estimation in MDPs

1️⃣ 一句话总结

这篇论文提出了一个名为κ-探索者的统一算法框架，它通过智能地分配探索资源来高效学习马尔可夫决策过程的环境模型，在平衡探索未知区域和降低模型估计误差方面优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.20132

arXiv 提交日期: 2026-02-23

llm reinforcement learning model training advantage distribution reasoning policy optimization diversity distribution matching

LAD：用于推理的优势分布学习 / LAD: Learning Advantage Distribution for Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为LAD的新方法，通过让AI模型学习并匹配‘优势分布’，而不是单纯追求最高奖励，来解决当前大模型在数学和代码推理中容易陷入单一思维、缺乏多样性的问题，从而在提升准确率的同时，也增加了答案的多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19223

arXiv 提交日期: 2026-02-22

multi-agents reinforcement learning systems multi-agent reinforcement learning energy management benchmarking urban energy systems key performance indicators

面向能源控制的多智能体强化学习特性分析：基于CityLearn环境的多关键绩效指标基准测试 / Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

1️⃣ 一句话总结

本研究通过在城市能源管理模拟环境CityLearn中引入多维度关键绩效指标进行系统性的基准测试，揭示了去中心化训练与执行模式在平均和最差性能上均优于中心化训练，并提出了能提升电池可持续性和系统鲁棒性的新评估指标。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17315

arXiv 提交日期: 2026-02-19

theory reinforcement learning agents multi-armed bandits graph processes regret analysis exploration-exploitation random walk

闪烁多臂老虎机 / Flickering Multi-Armed Bandits

1️⃣ 一句话总结

这篇论文提出了一个名为‘闪烁多臂老虎机’的新框架，用于解决在每一轮决策中可选‘手臂’（或行动）会动态变化且受先前选择限制的强化学习问题，并通过结合随机游走探索和导航利用的两阶段算法，在多种随机图模型下实现了接近最优的后悔上界。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17174

arXiv 提交日期: 2026-02-19

robotics reinforcement learning model training continual learning robust control domain randomization sim-to-real vibration control

持续不确定性学习 / Continual uncertainty learning

1️⃣ 一句话总结

这篇论文提出了一种新的课程式持续学习框架，通过将复杂的多不确定性控制问题分解为一系列顺序学习任务，并结合模型控制器来加速学习，最终成功设计出能抵抗结构非线性和动态变化的汽车动力系统振动控制器，并实现了从仿真到现实的顺利迁移。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17632

arXiv 提交日期: 2026-02-19

reinforcement learning model training theory offline rl online fine-tuning actor-critic robust transfer gradient regularization

SMAC：基于分数匹配的演员-评论家算法，实现鲁棒的离线到在线迁移 / SMAC: Score-Matched Actor-Critics for Robust Offline-to-Online Transfer

1️⃣ 一句话总结

这篇论文提出了一种名为SMAC的新型离线强化学习方法，它通过在学习过程中对Q函数施加一种特殊的约束，使得训练好的智能体在从离线数据切换到在线学习时，性能不会突然下降，从而实现了平滑且高效的策略迁移。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.20532

1️⃣ 一句话总结

arXiv ID: 2602.21203

1️⃣ 一句话总结

arXiv ID: 2602.20527

1️⃣ 一句话总结

arXiv ID: 2602.20729

1️⃣ 一句话总结

arXiv ID: 2602.20404

1️⃣ 一句话总结

arXiv ID: 2602.20132

1️⃣ 一句话总结

arXiv ID: 2602.19223

1️⃣ 一句话总结

arXiv ID: 2602.17315

1️⃣ 一句话总结

arXiv ID: 2602.17174

1️⃣ 一句话总结

arXiv ID: 2602.17632

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.20532 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21203 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20527 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20729 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20404 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.20132 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19223 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17315 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17174 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17632 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.20532

arXiv ID: 2602.21203

arXiv ID: 2602.20527

arXiv ID: 2602.20729

arXiv ID: 2602.20404

arXiv ID: 2602.20132

arXiv ID: 2602.19223

arXiv ID: 2602.17315

arXiv ID: 2602.17174

arXiv ID: 2602.17632