arXiv最新AI论文速览速学

🔍

标签: #credit assignment ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Localizing Credit at the Divergence: Path-Conditioned Self-Distillation for LLM Reasoning 06-22

arXiv ID: 2606.18810

arXiv 提交日期: 2026-06-17

reinforcement learning llm credit assignment self-conditioning reasoning reward verification

从自身解答中学习：面向可验证奖励强化学习的自条件化信用分配 / Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards

1️⃣ 一句话总结

本文提出SC-GRPO方法，通过让模型对比自身在有无正确轨迹条件下的输出差异，自动为每个词元分配更合理的奖励权重，从而在不依赖额外模型或外部信息的情况下，显著提升大语言模型在数学、代码等推理任务上的强化学习效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.15576

arXiv 提交日期: 2026-06-14

llm reinforcement learning model training credit assignment self-distillation reasoning chain-of-thought verifiable reward

在分叉点定位信用：基于路径条件的自蒸馏方法提升大语言模型推理能力 / Localizing Credit at the Divergence: Path-Conditioned Self-Distillation for LLM Reasoning

1️⃣ 一句话总结

本文提出了一种名为“回溯自蒸馏”的新方法，通过让模型在训练过程中参考同一批中成功的推理路径，而不是仅仅依赖最终答案，从而更精准地识别并强化推理链条中导致成功的关键决策点，显著提升了数学和代码推理任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27934

arXiv 提交日期: 2026-05-27

machine learning llm reinforcement learning reasoning credit assignment optimization benchmark

通用思考者：通过似然引导的答案条件优化实现通用推理 / GeneralThinker: Domain-General Reasoning through Likelihood-Guided Answer-Conditioned Optimization

1️⃣ 一句话总结

本文提出了一种名为GeneralThinker的通用推理训练框架，它不再依赖特定领域的验证器，而是通过计算最终正确答案的模型似然度来评估推理过程，并对每一步推理进行精细的奖励或惩罚，从而在数学、科学和通用推理等多种任务中均取得最佳效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.26646

arXiv 提交日期: 2026-05-26

reinforcement learning multi-agents llm multi-agent optimization workflow optimization credit assignment

UnityMAS-O：基于大语言模型的多智能体系统的通用强化学习优化框架 / UnityMAS-O: A General RL Optimization Framework for LLM-Based Multi-Agent Systems

1️⃣ 一句话总结

本文提出UnityMAS-O，一种将整个多智能体协作流程视为优化单元的通用强化学习框架，让用户无需重写底层代码，就能通过角色、轨迹、奖励和模型映射等核心组件，对基于大语言模型的多智能体工作流进行训练和优化，实验表明该方法能显著提升小模型在复杂问答和代码生成任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.13295

arXiv 提交日期: 2026-05-13

agents llm machine learning credit assignment prompt optimization multi-agent systems benchmark

CANTANTE：通过对比信用分配优化智能体系统 / CANTANTE: Optimizing Agentic Systems via Contrastive Credit Attribution

1️⃣ 一句话总结

本文提出了一种名为CANTANTE的框架，通过对比不同智能体组合在同一任务上的表现，将整个系统的奖励分数合理分配给每个智能体，从而自动优化多智能体系统的提示词，显著提升了编程、数学推理和多跳问答等任务的性能，同时降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.07274

arXiv 提交日期: 2026-05-08

multi-modal reinforcement learning model training group relative policy optimization vision-language models credit assignment reasoning policy optimization

结构化角色感知策略优化用于多模态推理 / Structured Role-Aware Policy Optimization for Multimodal Reasoning

1️⃣ 一句话总结

本文提出了一种结构化角色感知策略优化方法，通过将多模态回答中的感知和推理令牌分开并分别赋予不同权重，从而在无需额外评估模型的情况下，提升大型视觉语言模型在推理时对视觉证据的正确利用和答案的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.03327

arXiv 提交日期: 2026-05-05

llm reinforcement learning model training credit assignment policy optimization chain of thought kl divergence reasoning

分布导向策略优化：用于细粒度信用分配 / DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment

1️⃣ 一句话总结

本文提出了一种名为分布导向策略优化的强化学习新框架，通过将模型输出分布的变化作为灵活引导信号，代替传统算法中死板的惩罚，从而在长链条推理任务中精准识别关键步骤，并鼓励模型探索更多样化的解题路径。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.02288

arXiv 提交日期: 2026-04-02

reinforcement learning llm model training policy optimization reinforcement learning from human feedback sample routing self-distillation credit assignment

通过样本路由统一组相对与自蒸馏策略优化 / Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing

1️⃣ 一句话总结

这篇论文提出了一种名为SRPO的新方法，它巧妙地结合了两种现有强化学习技术的优点，通过智能地将不同质量的训练样本分配给不同的优化策略，从而在训练大语言模型时实现了既快速提升效果又保持长期稳定的目标，最终在多个测试中超越了现有最佳方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00722

arXiv 提交日期: 2026-04-01

llm agents multi-agents multi-agent reinforcement learning credit assignment policy gradient language agents cooperative tasks

LangMARL：自然语言多智能体强化学习 / LangMARL: Natural Language Multi-Agent Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为LangMARL的新框架，它通过将经典多智能体强化学习中的信用分配和策略梯度进化思想引入到语言模型中，解决了大语言模型智能体在动态环境中难以自主进化协作策略的问题，从而提升了学习效率、可解释性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28718

arXiv 提交日期: 2026-03-30

model training reinforcement learning machine learning credit assignment flow matching models diffusion models policy gradient stepwise reward

流匹配模型上GRPO的逐步信用分配 / Stepwise Credit Assignment for GRPO on Flow-Matching Models

1️⃣ 一句话总结

这篇论文提出了一种名为Stepwise-Flow-GRPO的新方法，它通过分析图像生成过程中不同步骤（如早期构图和后期细节处理）对最终结果的不同贡献，为每一步分配合适的“功劳”，从而解决了原有方法对所有步骤一视同仁导致的效率低下问题，使得AI模型能更快、更高效地学习如何生成高质量的图像。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.18810

1️⃣ 一句话总结

arXiv ID: 2606.15576

1️⃣ 一句话总结

arXiv ID: 2605.27934

1️⃣ 一句话总结

arXiv ID: 2605.26646

1️⃣ 一句话总结

arXiv ID: 2605.13295

1️⃣ 一句话总结

arXiv ID: 2605.07274

1️⃣ 一句话总结

arXiv ID: 2605.03327

1️⃣ 一句话总结

arXiv ID: 2604.02288

1️⃣ 一句话总结

arXiv ID: 2604.00722

1️⃣ 一句话总结

arXiv ID: 2603.28718

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.18810 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.15576 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27934 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.26646 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.13295 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.07274 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.03327 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.02288 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00722 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28718 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.18810

arXiv ID: 2606.15576

arXiv ID: 2605.27934

arXiv ID: 2605.26646

arXiv ID: 2605.13295

arXiv ID: 2605.07274

arXiv ID: 2605.03327

arXiv ID: 2604.02288

arXiv ID: 2604.00722

arXiv ID: 2603.28718