arXiv最新AI论文速览速学

🔍

标签: #reinforcement learning from human feedback ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models 05-25

arXiv ID: 2605.19416

arXiv 提交日期: 2026-05-19

llm reinforcement learning model training policy optimization advantage estimation pairwise preference mathematical reasoning reinforcement learning from human feedback

LambdaPO：一种用于推理语言模型的Lambda风格策略优化方法 / LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models

1️⃣ 一句话总结

本文提出了一种名为LambdaPO的新方法，通过将原本简单的群体平均奖励改进为两两轨迹之间的精细比较，并结合语义密度奖励，从而让大语言模型在数学推理和问答任务中得到更有效的优化，比现有方法表现更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01787

arXiv 提交日期: 2026-04-02

llm model training machine learning reinforcement learning from human feedback efficient fine-tuning human alignment data filtering distributional guidance

DEFT：基于分布引导的高效微调用于人类对齐 / DEFT: Distribution-guided Efficient Fine-Tuning for Human Alignment

1️⃣ 一句话总结

这篇论文提出了一种名为DEFT的高效微调框架，它通过筛选高质量数据并引导模型输出分布，在提升大语言模型与人类价值观对齐效果的同时，减少了训练成本并保持了模型的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02288

arXiv 提交日期: 2026-04-02

reinforcement learning llm model training policy optimization reinforcement learning from human feedback sample routing self-distillation credit assignment

通过样本路由统一组相对与自蒸馏策略优化 / Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

1️⃣ 一句话总结

这篇论文提出了一种名为SRPO的新方法，它巧妙地结合了两种现有强化学习技术的优点，通过智能地将不同质量的训练样本分配给不同的优化策略，从而在训练大语言模型时实现了既快速提升效果又保持长期稳定的目标，最终在多个测试中超越了现有最佳方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07927

arXiv 提交日期: 2026-03-09

llm agents model training software engineering agents trajectory learning reinforcement learning from human feedback benchmark evaluation instruction tuning

SWE-Fuse：通过无问题轨迹学习和熵感知RLVR训练赋能软件代理 / SWE-Fuse: Empowering Software Agents via Issue-free Trajectory Learning and Entropy-aware RLVR Training

1️⃣ 一句话总结

这篇论文提出了一种名为SWE-Fuse的新训练框架，它通过结合无问题描述的轨迹学习和一种能根据学习不确定性自动调整训练强度的强化学习方法，有效解决了现有AI软件代理因训练数据中问题描述与解决方案不匹配而性能受限的难题，从而显著提升了代理修复真实世界软件问题的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21765

arXiv 提交日期: 2026-02-25

theory llm model training reinforcement learning from human feedback generalization theory reward shift kl regularization theoretical analysis

奖励偏移与截断KL正则化下RLHF的泛化理论 / Generalisation of RLHF under Reward Shift and Clipped KL Regularisation

1️⃣ 一句话总结

这篇论文为基于人类反馈的强化学习（RLHF）建立了一套泛化理论，首次系统分析了因奖励模型训练数据与当前策略不匹配导致的‘奖励偏移’问题，以及因技术实现而引入的‘KL正则项截断误差’，并据此为实际训练中的参数设置和数据分配提供了理论指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.19416

1️⃣ 一句话总结

arXiv ID: 2604.01787

1️⃣ 一句话总结

arXiv ID: 2604.02288

1️⃣ 一句话总结

arXiv ID: 2603.07927

1️⃣ 一句话总结

arXiv ID: 2602.21765

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.19416 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01787 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02288 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07927 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21765 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.19416

arXiv ID: 2604.01787

arXiv ID: 2604.02288

arXiv ID: 2603.07927

arXiv ID: 2602.21765