arXiv最新AI论文速览速学

🔍

reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 365 最新: In Trust We Survive: Emergent Trust Learning 03-19

arXiv ID: 2603.01481

arXiv 提交日期: 2026-03-02

llm agents reinforcement learning credit assignment multi-turn rl industrial agents reward normalization sales optimization

协调多轮强化学习中的密集与稀疏信号：面向工业销售助手的双视野信用分配 / Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

1️⃣ 一句话总结

这篇论文提出了一种名为DuCA的新方法，通过分别处理对话中每轮的具体要求和整个销售过程的长期目标，有效解决了工业销售AI助手在训练时难以同时兼顾语言流畅性和最终成交率的难题，从而显著提升了销售效果和对话质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01292

arXiv 提交日期: 2026-03-01

reinforcement learning robotics systems safe reinforcement learning linear temporal logic ppo constraint satisfaction lagrangian method

将线性时序逻辑约束集成到PPO算法中实现安全强化学习 / Integrating LTL Constraints into PPO for Safe Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为PPO-LTL的新方法，它通过将描述复杂安全规则（如机器人避障）的线性时序逻辑公式转化为惩罚信号，并融入强化学习训练过程，从而在保证任务性能的同时，显著降低了智能体在训练和运行中的危险行为次数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01223

arXiv 提交日期: 2026-03-01

reinforcement learning llm model training mathematical reasoning reward sparsity fine-tuning reference-guided learning rl training

通过参考引导微调在强化学习中学习难题 / Learn Hard Problems During RL with Reference Guided Fine-tuning

1️⃣ 一句话总结

这篇论文提出了一种名为ReGFT的新方法，它巧妙地利用人类编写的参考答案来引导大语言模型自己生成解题思路，从而解决了数学推理强化学习中因奖励稀疏而难以训练的问题，最终显著提升了模型在复杂数学问题上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22765

arXiv 提交日期: 2026-02-26

reinforcement learning llm model training rlhf critique training data utilization second-order rollout generation-critique joint training

通过二阶展开实现更好的强化学习训练数据利用 / Towards Better RL Training Data Utilization via Second-Order Rollout

1️⃣ 一句话总结

这篇论文提出了一种名为“二阶展开”的新方法，通过让大语言模型在训练时不仅生成答案，还生成对答案的多个评价，来联合训练其生成和批判能力，从而更充分地利用训练数据，在相同数据量下比传统强化学习获得更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23058

arXiv 提交日期: 2026-02-26

computer vision model training reinforcement learning world models hyperbolic embeddings energy-based models visual planning geometric representation

GeoWorld：几何世界模型 / GeoWorld: Geometric World Models

1️⃣ 一句话总结

这篇论文提出了一种名为GeoWorld的几何世界模型，它通过将状态表示映射到双曲空间来更好地捕捉其内在的层次和几何结构，从而显著提升了多步视觉规划的稳定性和准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22718

arXiv 提交日期: 2026-02-26

reinforcement learning systems model training rlhf serverless computing training efficiency resource optimization synchronous training

RLHFless：基于无服务器计算的高效RLHF框架 / RLHFless: Serverless Computing for Efficient RLHF

1️⃣ 一句话总结

这篇论文提出了一个名为RLHFless的新框架，它利用无服务器计算技术来动态调配资源，从而显著提升了基于人类反馈的强化学习（RLHF）的训练效率并降低了成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22495

arXiv 提交日期: 2026-02-26

llm model training reinforcement learning knowledge distillation reasoning reinforcement learning policy optimization model compression

面向大语言模型推理的强化学习感知知识蒸馏 / Reinforcement-aware Knowledge Distillation for LLM Reasoning

1️⃣ 一句话总结

本文提出了一种名为RLAD的新方法，通过在强化学习训练过程中智能地选择时机模仿更强大的教师模型，成功地将复杂大模型的推理能力高效地压缩到更小、更快的模型中，解决了传统方法中目标冲突和分布不匹配的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21992

arXiv 提交日期: 2026-02-25

computer vision reinforcement learning multi-modal 3d spatial reasoning vision-language models panoramic images reinforcement learning fine-tuning vqa benchmark

PanoEnv：在360度全景环境中利用强化学习探索三维空间智能 / PanoEnv: Exploring 3D Spatial Intelligence in Panoramic Environments with Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为PanoEnv的大规模全景视觉问答数据集和一个基于强化学习的训练框架，有效提升了视觉语言模型在扭曲的全景图像中进行三维空间推理的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21492

arXiv 提交日期: 2026-02-25

llm reinforcement learning model training data selection policy gradient curriculum learning non-stationary optimization rlhf

GradAlign：面向大语言模型强化学习的梯度对齐数据选择方法 / GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为GradAlign的新方法，它通过选择那些能让模型训练梯度方向与一小部分可信验证集梯度方向一致的数据，来为大语言模型的强化学习自动筛选高质量训练问题，从而在各种困难数据场景下实现更稳定、更高效的模型优化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22146

arXiv 提交日期: 2026-02-25

llm reinforcement learning theory safe alignment primal-dual optimization last-iterate convergence constrained rl human feedback

通过乐观原始对偶方法实现多目标安全大语言模型对齐的可证明末次迭代收敛 / Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual

1️⃣ 一句话总结

这篇论文提出了一种名为“乐观原始对偶”的新算法，它能够稳定地训练大语言模型，使其在遵循人类偏好的同时满足安全约束，并首次从理论上证明了该方法的最终训练结果是可靠收敛的。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.01481

1️⃣ 一句话总结

arXiv ID: 2603.01292

1️⃣ 一句话总结

arXiv ID: 2603.01223

1️⃣ 一句话总结

arXiv ID: 2602.22765

1️⃣ 一句话总结

arXiv ID: 2602.23058

1️⃣ 一句话总结

arXiv ID: 2602.22718

1️⃣ 一句话总结

arXiv ID: 2602.22495

1️⃣ 一句话总结

arXiv ID: 2602.21992

1️⃣ 一句话总结

arXiv ID: 2602.21492

1️⃣ 一句话总结

arXiv ID: 2602.22146

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.01481 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01292 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01223 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22765 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23058 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22718 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22495 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21992 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21492 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22146 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.01481

arXiv ID: 2603.01292

arXiv ID: 2603.01223

arXiv ID: 2602.22765

arXiv ID: 2602.23058

arXiv ID: 2602.22718

arXiv ID: 2602.22495

arXiv ID: 2602.21992

arXiv ID: 2602.21492

arXiv ID: 2602.22146