arXiv最新AI论文速览速学

🔍

标签: #human feedback ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Three Models of RLHF Annotation: Extension, Evidence, and Authority 05-04

arXiv ID: 2604.25895

arXiv 提交日期: 2026-04-28

llm machine learning rlhf human feedback annotation preference modeling alignment

RLHF标注的三种模型：扩展、证据与权威 / Three Models of RLHF Annotation: Extension, Evidence, and Authority

1️⃣ 一句话总结

本文梳理了基于人类反馈的强化学习（RLHF）中标注数据所扮演的三种不同角色——扩展设计者意图、提供客观证据、或赋予群体代表权威，并指出设计者应根据不同维度选择最合适的模型，而非试图用一个统一流程处理所有标注任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22563

arXiv 提交日期: 2026-03-23

reinforcement learning model training privacy differential privacy human feedback reward modeling privacy-preserving alignment

基于解耦奖励建模的隐私保护人类反馈强化学习 / Privacy-Preserving Reinforcement Learning from Human Feedback via Decoupled Reward Modeling

1️⃣ 一句话总结

这篇论文提出了一种新的隐私保护方法，通过只对学习用户偏好的‘奖励模型’部分进行隐私处理，来训练大型语言模型，从而在保护用户敏感数据的同时，有效提升了模型与人类价值观对齐的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15434

arXiv 提交日期: 2026-03-16

llm agents natural language processing reinforcement learning dialogue systems emotional support policy optimization human feedback

倾听回声：基于标量-语言混合强化学习的用户反应感知策略优化 / Listening to the Echo: User-Reaction Aware Policy Optimization via Scalar-Verbal Hybrid Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种新的情感支持对话系统优化方法，它不再依赖专家定义的单一评分，而是通过模拟用户在对话中的实时反应来生成更丰富的语言反馈，从而更有效地引导对话走向积极的情感转变。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22146

arXiv 提交日期: 2026-02-25

llm reinforcement learning theory safe alignment primal-dual optimization last-iterate convergence constrained rl human feedback

通过乐观原始对偶方法实现多目标安全大语言模型对齐的可证明末次迭代收敛 / Provable Last-Iterate Convergence for Multi-Objective Safe LLM Alignment via Optimistic Primal-Dual

1️⃣ 一句话总结

这篇论文提出了一种名为“乐观原始对偶”的新算法，它能够稳定地训练大语言模型，使其在遵循人类偏好的同时满足安全约束，并首次从理论上证明了该方法的最终训练结果是可靠收敛的。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16173

arXiv 提交日期: 2026-02-18

agents model training machine learning personalized agents human feedback continual learning preference modeling explicit memory

从人类反馈中学习个性化智能体 / Learning Personalized Agents from Human Feedback

1️⃣ 一句话总结

这篇论文提出了一个名为PAHF的框架，让AI智能体能够通过与用户的实时互动，持续学习和适应每个用户独特且可能变化的个人偏好，从而提供更贴心的服务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.15038

arXiv 提交日期: 2025-11-19

aigc model training machine learning music generation preference alignment human feedback diffusion models evaluation

生成式音乐AI与人类偏好的对齐：方法与挑战 / Aligning Generative Music AI with Human Preferences: Methods and Challenges

1️⃣ 一句话总结

这篇论文探讨了如何通过偏好对齐技术，让生成式音乐AI更好地理解并满足人类对音乐和谐性、连贯性和主观质量的复杂偏好，以推动其在互动创作和个性化服务中的应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.20187

arXiv 提交日期: 2025-10-23

llm reinforcement learning agents value alignment reward shaping human feedback policy optimization termination policy

每个问题都有其价值：基于显式人类价值的强化学习 / Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values

1️⃣ 一句话总结

这项研究提出了一种新方法，通过将人类对不同问题重要程度的量化评估直接融入奖励函数，让大语言模型在训练时不仅能提升答案准确性，还能学会根据问题价值高低自动调整回答的详略程度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.25895

1️⃣ 一句话总结

arXiv ID: 2603.22563

1️⃣ 一句话总结

arXiv ID: 2603.15434

1️⃣ 一句话总结

arXiv ID: 2602.22146

1️⃣ 一句话总结

arXiv ID: 2602.16173

1️⃣ 一句话总结

arXiv ID: 2511.15038

1️⃣ 一句话总结

arXiv ID: 2510.20187

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.25895 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22563 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15434 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22146 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16173 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.15038 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.20187 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.25895

arXiv ID: 2603.22563

arXiv ID: 2603.15434

arXiv ID: 2602.22146

arXiv ID: 2602.16173

arXiv ID: 2511.15038

arXiv ID: 2510.20187