arXiv最新AI论文速览速学

🔍

标签: #group relative policy optimization ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization 06-04

arXiv ID: 2606.04807

arXiv 提交日期: 2026-06-03

llm reinforcement learning bias mitigation group relative policy optimization reward modeling alignment

BiasGRPO：通过群体相对策略优化在高方差奖励景观中稳定偏差缓解 / BiasGRPO: Stabilizing Bias Mitigation in High-Variance Reward Landscapes via Group-Relative Policy Optimization

1️⃣ 一句话总结

本文提出BiasGRPO方法，利用群体相对策略优化（GRPO）通过对一组采样输出的奖励进行归一化，稳定地减少大语言模型中的社会偏见，相比DPO和PPO方法在多个基准上表现更优，并附带了高效且可复用的偏差奖励模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.14366

arXiv 提交日期: 2026-05-14

llm reinforcement learning natural language processing low-resource language alignment tax semantic reward machine translation group relative policy optimization

基于语义奖励的强化学习实现低资源语言扩展且无对齐代价 / Reinforcement Learning with Semantic Rewards Enables Low-Resource Language Expansion without Alignment Tax

1️⃣ 一句话总结

该研究提出一种用语义奖励代替传统文本匹配的强化学习方法，让大模型在扩展低资源语言能力时，既能学会新语言任务，又不会忘记已有的通用知识，解决了常见微调方法中‘学会新语言就丢失原有能力’的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.07274

arXiv 提交日期: 2026-05-08

multi-modal reinforcement learning model training group relative policy optimization vision-language models credit assignment reasoning policy optimization

结构化角色感知策略优化用于多模态推理 / Structured Role-Aware Policy Optimization for Multimodal Reasoning

1️⃣ 一句话总结

本文提出了一种结构化角色感知策略优化方法，通过将多模态回答中的感知和推理令牌分开并分别赋予不同权重，从而在无需额外评估模型的情况下，提升大型视觉语言模型在推理时对视觉证据的正确利用和答案的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.02011

arXiv 提交日期: 2026-05-03

llm agents reinforcement learning legal document generation retrieval-augmented generation group relative policy optimization judicial benchmark

通过智能法律信息收集与评分引导优化提升判决文书生成 / Enhancing Judgment Document Generation via Agentic Legal Information Collection and Rubric-Guided Optimization

1️⃣ 一句话总结

本文提出一个名为Judge-R1的统一框架，通过引入动态规划代理自动收集准确的法律条文和判例，并结合基于强化学习的评分优化方法，让AI生成的判决文书在事实引用、法律依据和逻辑推理上更专业可靠。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02939

arXiv 提交日期: 2026-03-03

llm agents model training trajectory prediction reinforcement fine-tuning group relative policy optimization maritime navigation chain-of-thought reasoning

ShipTraj-R1：通过组相对策略优化强化大语言模型中的船舶轨迹预测 / ShipTraj-R1: Reinforcing Ship Trajectory Prediction in Large Language Models via Group Relative Policy Optimization

1️⃣ 一句话总结

这篇论文提出了一个名为ShipTraj-R1的新框架，它首次将大语言模型应用于船舶轨迹预测，通过创新的动态提示和奖励机制，使其在复杂真实场景下的预测精度超过了现有先进方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.04807

1️⃣ 一句话总结

arXiv ID: 2605.14366

1️⃣ 一句话总结

arXiv ID: 2605.07274

1️⃣ 一句话总结

arXiv ID: 2605.02011

1️⃣ 一句话总结

arXiv ID: 2603.02939

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.04807 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.14366 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.07274 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.02011 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02939 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.04807

arXiv ID: 2605.14366

arXiv ID: 2605.07274

arXiv ID: 2605.02011

arXiv ID: 2603.02939