arXiv最新AI论文速览速学

🔍

标签: #rlhf ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Towards Better RL Training Data Utilization via Second-Order Rollout 02-27

arXiv ID: 2602.22765

arXiv 提交日期: 2026-02-26

reinforcement learning llm model training rlhf critique training data utilization second-order rollout generation-critique joint training

通过二阶展开实现更好的强化学习训练数据利用 / Towards Better RL Training Data Utilization via Second-Order Rollout

1️⃣ 一句话总结

这篇论文提出了一种名为“二阶展开”的新方法，通过让大语言模型在训练时不仅生成答案，还生成对答案的多个评价，来联合训练其生成和批判能力，从而更充分地利用训练数据，在相同数据量下比传统强化学习获得更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22718

arXiv 提交日期: 2026-02-26

reinforcement learning systems model training rlhf serverless computing training efficiency resource optimization synchronous training

RLHFless：基于无服务器计算的高效RLHF框架 / RLHFless: Serverless Computing for Efficient RLHF

1️⃣ 一句话总结

这篇论文提出了一个名为RLHFless的新框架，它利用无服务器计算技术来动态调配资源，从而显著提升了基于人类反馈的强化学习（RLHF）的训练效率并降低了成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21492

arXiv 提交日期: 2026-02-25

llm reinforcement learning model training data selection policy gradient curriculum learning non-stationary optimization rlhf

GradAlign：面向大语言模型强化学习的梯度对齐数据选择方法 / GradAlign: Gradient-Aligned Data Selection for LLM Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为GradAlign的新方法，它通过选择那些能让模型训练梯度方向与一小部分可信验证集梯度方向一致的数据，来为大语言模型的强化学习自动筛选高质量训练问题，从而在各种困难数据场景下实现更稳定、更高效的模型优化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17658

arXiv 提交日期: 2026-02-19

model training machine learning theory reward modeling data augmentation rlhf preference learning margin-aware sampling

MARS：基于边界感知与自我优化的奖励模型构建方法 / MARS: Margin-Aware Reward-Modeling with Self-Refinement

1️⃣ 一句话总结

这篇论文提出了一种名为MARS的新方法，它通过智能识别奖励模型最难判断的模糊样本，并针对性地生成更多类似数据来训练，从而在减少对昂贵人工标注依赖的同时，显著提升了奖励模型的准确性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.16649

arXiv 提交日期: 2025-12-18

llm model training reinforcement learning rlhf scaling laws reasoning mathematical benchmarks minimal training

JustRL：用简单的强化学习配方扩展15亿参数大语言模型 / JustRL: Scaling a 1.5B LLM with a Simple RL Recipe

1️⃣ 一句话总结

这篇论文提出了一个名为JustRL的极简强化学习方法，它仅使用单阶段训练和固定参数，就在两个15亿参数模型上取得了顶尖的数学推理性能，同时计算量减半，挑战了当前领域普遍认为需要复杂训练流程才能取得好效果的观念。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.19504

arXiv 提交日期: 2025-11-23

theory machine learning model training ai alignment rlhf trilemma formal analysis robustness

对齐三难困境：RLHF系统的根本限制 / Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma

1️⃣ 一句话总结

本文形式化提出了'对齐三难困境'，指出任何基于人类反馈的强化学习系统都无法同时实现三个理想目标：全面代表多样化人类价值观、计算可处理性以及抗干扰鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.05933

arXiv 提交日期: 2025-11-08

llm reinforcement learning model evaluation knowledge traversal hierarchical reasoning rlhf internal activations procedural skills

强化学习提升大语言模型对层级知识的遍历能力 / Reinforcement Learning Improves Traversal of Hierarchical Knowledge in LLMs

1️⃣ 一句话总结

这项研究发现强化学习并非像传统观点认为的那样会损害语言模型的记忆知识，而是通过提升模型在已有知识层级中搜索和导航的‘程序性技能’，使其在需要遍历结构化知识（如医疗代码）的回忆任务中表现更优。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.22765

1️⃣ 一句话总结

arXiv ID: 2602.22718

1️⃣ 一句话总结

arXiv ID: 2602.21492

1️⃣ 一句话总结

arXiv ID: 2602.17658

1️⃣ 一句话总结

arXiv ID: 2512.16649

1️⃣ 一句话总结

arXiv ID: 2511.19504

1️⃣ 一句话总结

arXiv ID: 2511.05933

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.22765 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22718 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21492 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17658 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.16649 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.19504 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.05933 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.22765

arXiv ID: 2602.22718

arXiv ID: 2602.21492

arXiv ID: 2602.17658

arXiv ID: 2512.16649

arXiv ID: 2511.19504

arXiv ID: 2511.05933