arXiv最新AI论文速览速学

🔍

标签: #reward modeling ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 161 72小时内新更新论文 72h更新 166 最新: Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning 03-16

arXiv ID: 2603.10588

arXiv 提交日期: 2026-03-11

llm model training theory alignment reinforcement learning moral reasoning rlvr reward modeling

大语言模型对齐真的需要多样性吗？一项关于将RLVR方法应用于道德推理的实证研究 / Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

1️⃣ 一句话总结

这项研究发现，在训练大语言模型进行道德推理时，追求高回报的标准强化学习方法与刻意保持多样性的方法效果相当甚至更好，表明对齐任务并不必然需要专门的多样性算法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10351

arXiv 提交日期: 2026-03-11

llm model evaluation natural language processing translationese bias multilingual evaluation information bottleneck disentangled representation reward modeling

通过解耦信息瓶颈缓解多语言LLM作为评判者时的翻译腔偏见 / Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck

1️⃣ 一句话总结

这篇论文提出了一种名为DIBJudge的微调框架，通过信息压缩和解耦技术，有效减少了大语言模型在多语言评估中普遍存在的、倾向于机器翻译文本而非人工参考译文的系统性偏见。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10473

arXiv 提交日期: 2026-03-11

llm natural language processing systems generative search reward modeling alignment policy optimization information retrieval

基于搜索者偏好对齐大语言模型 / Aligning Large Language Models with Searcher Preferences

1️⃣ 一句话总结

这篇论文提出了首个用于开放式生成式搜索的大语言模型SearchLLM，它通过一个分层的多维奖励系统来确保回答的准确性、安全性和对用户需求的匹配，并在实际部署中显著提升了搜索质量和用户参与度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09160

arXiv 提交日期: 2026-03-10

computer vision natural language processing model training dense image captioning reinforcement learning vision-language models llm-guided evaluation reward modeling

RubiCap：基于评分标准的强化学习用于密集图像描述生成 / RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

1️⃣ 一句话总结

这篇论文提出了一种名为RubiCap的新方法，它利用大型语言模型自动生成详细的评分标准来指导强化学习训练，从而在无需昂贵人工标注的情况下，高效地生成质量更高、更多样化的图像描述。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21728

arXiv 提交日期: 2026-02-25

llm agents natural language processing knowledge graph reasoning reinforcement learning autonomous exploration knowledge graph question answering reward modeling

图探索：利用路径精炼奖励建模激励大语言模型在知识图谱上的自主探索 / Explore-on-Graph: Incentivizing Autonomous Exploration of Large Language Models on Knowledge Graphs with Path-refined Reward Modeling

1️⃣ 一句话总结

这篇论文提出了一种名为‘图探索’的新方法，通过引入强化学习和路径信息作为额外奖励，激励大语言模型在知识图谱上自主探索更多样化的推理路径，从而有效减少回答错误并提升其在复杂知识推理任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17658

arXiv 提交日期: 2026-02-19

model training machine learning theory reward modeling data augmentation rlhf preference learning margin-aware sampling

MARS：基于边界感知与自我优化的奖励模型构建方法 / MARS: Margin-Aware Reward-Modeling with Self-Refinement

1️⃣ 一句话总结

这篇论文提出了一种名为MARS的新方法，它通过智能识别奖励模型最难判断的模糊样本，并针对性地生成更多类似数据来训练，从而在减少对昂贵人工标注依赖的同时，显著提升了奖励模型的准确性和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14844

arXiv 提交日期: 2026-02-16

agents reinforcement learning model training inverse reinforcement learning ai alignment reward modeling human-in-the-loop safety

无交互逆强化学习：一种面向持久对齐的数据中心框架 / Interactionless Inverse Reinforcement Learning: A Data-Centric Framework for Durable Alignment

1️⃣ 一句话总结

这篇论文提出了一种名为‘无交互逆强化学习’的新方法，将AI安全目标与具体策略解耦，通过构建一个可检查、可编辑的通用奖励模型，并结合人工参与的迭代优化循环，将AI对齐从一次性的消耗转变为可持久验证的工程资产。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11146

arXiv 提交日期: 2026-02-11

model training computer vision multi-modal diffusion models reward modeling preference optimization latent space image alignment

超越基于视觉语言模型的奖励：扩散模型原生潜在奖励建模 / Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

1️⃣ 一句话总结

这篇论文提出了一种名为DiNa-LRM的新方法，它直接在扩散模型的内部潜在空间中评估图像质量，从而以更低的计算成本实现了与主流视觉语言模型相当的图像偏好对齐效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08498

arXiv 提交日期: 2026-02-09

llm model evaluation natural language processing reasoning evaluation reasoning optimization reward modeling reasoning traces preference learning

复杂推理的特征刻画、评估与优化 / Characterizing, Evaluating, and Optimizing Complex Reasoning

1️⃣ 一句话总结

该论文提出了一个统一的框架，通过引入宏观与微观的评估原则、将推理过程建模为有向无环图并构建相应的奖励模型，来刻画、评估和优化大型推理模型中的复杂推理过程，从而显著提升模型在各种任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08819

arXiv 提交日期: 2026-02-09

llm model training reinforcement learning reward modeling bayesian inference preference learning test-time adaptation multi-objective alignment

用于测试时可引导奖励模型的贝叶斯偏好学习 / Bayesian Preference Learning for Test-Time Steerable Reward Models

1️⃣ 一句话总结

这篇论文提出了一种名为ICRM的新方法，它能让AI在训练后根据用户给出的新偏好示例动态调整其奖励判断，从而更灵活地适应多样化的任务需求，比如同时兼顾安全性和有用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10588

1️⃣ 一句话总结

arXiv ID: 2603.10351

1️⃣ 一句话总结

arXiv ID: 2603.10473

1️⃣ 一句话总结

arXiv ID: 2603.09160

1️⃣ 一句话总结

arXiv ID: 2602.21728

1️⃣ 一句话总结

arXiv ID: 2602.17658

1️⃣ 一句话总结

arXiv ID: 2602.14844

1️⃣ 一句话总结

arXiv ID: 2602.11146

1️⃣ 一句话总结

arXiv ID: 2602.08498

1️⃣ 一句话总结

arXiv ID: 2602.08819

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10588 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10351 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10473 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09160 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21728 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17658 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14844 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11146 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08498 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08819 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10588

arXiv ID: 2603.10351

arXiv ID: 2603.10473

arXiv ID: 2603.09160

arXiv ID: 2602.21728

arXiv ID: 2602.17658

arXiv ID: 2602.14844

arXiv ID: 2602.11146

arXiv ID: 2602.08498

arXiv ID: 2602.08819