arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 200 72小时内新更新论文 72h更新 205 最新: Robust and Computationally Efficient Linear Contextual Bandits under Adversarial Corruption and Heavy-Tailed Noise 03-17

arXiv ID: 2603.02066

arXiv 提交日期: 2026-03-02

machine learning model training systems reinforcement learning partial differential equations mesh optimization surrogate models spatial adaptivity

通过强化学习引导的网格优化加速偏微分方程代理模型训练 / Accelerating PDE Surrogates via RL-Guided Mesh Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为RLMesh的新方法，它利用强化学习智能地为偏微分方程模拟动态分配计算资源，将网格点集中在最关键的求解区域，从而在保证精度的前提下，大幅减少了训练深度学习代理模型所需的高成本模拟次数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01481

arXiv 提交日期: 2026-03-02

llm agents reinforcement learning credit assignment multi-turn rl industrial agents reward normalization sales optimization

协调多轮强化学习中的密集与稀疏信号：面向工业销售助手的双视野信用分配 / Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents

1️⃣ 一句话总结

这篇论文提出了一种名为DuCA的新方法，通过分别处理对话中每轮的具体要求和整个销售过程的长期目标，有效解决了工业销售AI助手在训练时难以同时兼顾语言流畅性和最终成交率的难题，从而显著提升了销售效果和对话质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01639

arXiv 提交日期: 2026-03-02

llm systems model evaluation speculative decoding reinforcement learning inference optimization adaptive drafting throughput maximization

学习草拟：基于强化学习的自适应推测解码 / Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为‘学习草拟’的新方法，它利用强化学习训练两个相互适应的策略来动态协调大语言模型的草拟和验证阶段，从而直接优化整体解码速度，在多种任务上实现了比现有最佳方法高出最多36.4%的加速效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01571

arXiv 提交日期: 2026-03-02

llm model training model evaluation generative reward models chain-of-thought reasoning mechanisms reinforcement learning benchmark

超越长度扩展：融合广度与深度以优化生成式奖励模型 / Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

1️⃣ 一句话总结

这篇论文提出了一个名为Mix-GRM的新框架，通过结构化地结合广度推理（覆盖多维度原则）和深度推理（确保判断的实质性严谨性），而非简单地增加推理长度，来显著提升生成式奖励模型的评估性能，使其在多种任务上达到新的最佳水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01292

arXiv 提交日期: 2026-03-01

reinforcement learning robotics systems safe reinforcement learning linear temporal logic ppo constraint satisfaction lagrangian method

将线性时序逻辑约束集成到PPO算法中实现安全强化学习 / Integrating LTL Constraints into PPO for Safe Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为PPO-LTL的新方法，它通过将描述复杂安全规则（如机器人避障）的线性时序逻辑公式转化为惩罚信号，并融入强化学习训练过程，从而在保证任务性能的同时，显著降低了智能体在训练和运行中的危险行为次数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01223

arXiv 提交日期: 2026-03-01

reinforcement learning llm model training mathematical reasoning reward sparsity fine-tuning reference-guided learning rl training

通过参考引导微调在强化学习中学习难题 / Learn Hard Problems During RL with Reference Guided Fine-tuning

1️⃣ 一句话总结

这篇论文提出了一种名为ReGFT的新方法，它巧妙地利用人类编写的参考答案来引导大语言模型自己生成解题思路，从而解决了数学推理强化学习中因奖励稀疏而难以训练的问题，最终显著提升了模型在复杂数学问题上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22765

arXiv 提交日期: 2026-02-26

reinforcement learning llm model training rlhf critique training data utilization second-order rollout generation-critique joint training

通过二阶展开实现更好的强化学习训练数据利用 / Towards Better RL Training Data Utilization via Second-Order Rollout

1️⃣ 一句话总结

这篇论文提出了一种名为“二阶展开”的新方法，通过让大语言模型在训练时不仅生成答案，还生成对答案的多个评价，来联合训练其生成和批判能力，从而更充分地利用训练数据，在相同数据量下比传统强化学习获得更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.23058

arXiv 提交日期: 2026-02-26

computer vision model training reinforcement learning world models hyperbolic embeddings energy-based models visual planning geometric representation

GeoWorld：几何世界模型 / GeoWorld: Geometric World Models

1️⃣ 一句话总结

这篇论文提出了一种名为GeoWorld的几何世界模型，它通过将状态表示映射到双曲空间来更好地捕捉其内在的层次和几何结构，从而显著提升了多步视觉规划的稳定性和准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22932

arXiv 提交日期: 2026-02-26

multi-modal model training model evaluation video understanding key-frame sampling reinforcement learning multimodal llm long-form video

MSJoE：联合进化多模态大语言模型与采样器以实现高效长视频理解 / MSJoE: Jointly Evolving MLLM and Sampler for Efficient Long-Form Video Understanding

1️⃣ 一句话总结

这篇论文提出了一种名为MSJoE的新方法，它通过让多模态大语言模型和一个轻量级的关键帧采样器协同学习和进化，智能地从长视频中筛选出少量最相关的画面进行理解，从而在显著提升回答准确率的同时，实现了对长视频的高效分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22718

arXiv 提交日期: 2026-02-26

reinforcement learning systems model training rlhf serverless computing training efficiency resource optimization synchronous training

RLHFless：基于无服务器计算的高效RLHF框架 / RLHFless: Serverless Computing for Efficient RLHF

1️⃣ 一句话总结

这篇论文提出了一个名为RLHFless的新框架，它利用无服务器计算技术来动态调配资源，从而显著提升了基于人类反馈的强化学习（RLHF）的训练效率并降低了成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.02066

1️⃣ 一句话总结

arXiv ID: 2603.01481

1️⃣ 一句话总结

arXiv ID: 2603.01639

1️⃣ 一句话总结

arXiv ID: 2603.01571

1️⃣ 一句话总结

arXiv ID: 2603.01292

1️⃣ 一句话总结

arXiv ID: 2603.01223

1️⃣ 一句话总结

arXiv ID: 2602.22765

1️⃣ 一句话总结

arXiv ID: 2602.23058

1️⃣ 一句话总结

arXiv ID: 2602.22932

1️⃣ 一句话总结

arXiv ID: 2602.22718

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.02066 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01481 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01639 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01571 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01292 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01223 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22765 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.23058 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22932 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22718 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.02066

arXiv ID: 2603.01481

arXiv ID: 2603.01639

arXiv ID: 2603.01571

arXiv ID: 2603.01292

arXiv ID: 2603.01223

arXiv ID: 2602.22765

arXiv ID: 2602.23058

arXiv ID: 2602.22932

arXiv ID: 2602.22718