arXiv最新AI论文速览速学

🔍

标签: #self-conditioning ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards 06-18

arXiv ID: 2606.18810

arXiv 提交日期: 2026-06-17

reinforcement learning llm credit assignment self-conditioning reasoning reward verification

从自身解答中学习：面向可验证奖励强化学习的自条件化信用分配 / Learning from Own Solutions: Self-Conditioned Credit Assignment for Reinforcement Learning with Verifiable Rewards

1️⃣ 一句话总结

本文提出SC-GRPO方法，通过让模型对比自身在有无正确轨迹条件下的输出差异，自动为每个词元分配更合理的奖励权重，从而在不依赖额外模型或外部信息的情况下，显著提升大语言模型在数学、代码等推理任务上的强化学习效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05551

arXiv 提交日期: 2026-04-07

natural language processing model training model evaluation diffusion language models sequence-to-sequence few-step sampling self-conditioning fast inference

FastDiSS：面向序列到序列生成的少步匹配多步扩散语言模型——完整版 / FastDiSS: Few-step Match Many-step Diffusion Language Model on Sequence-to-Sequence Generation--Full Version

1️⃣ 一句话总结

这篇论文提出了一种新的训练框架，通过扰动自条件信号和引入噪声感知机制，解决了扩散模型在快速少步推理时因自条件误差累积导致的质量下降问题，在保持高质量生成的同时实现了高达400倍的推理加速。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.09677

arXiv 提交日期: 2025-09-11

llm model evaluation benchmark long-horizon execution scaling laws self-conditioning sequential reasoning thinking models

收益递减的错觉：衡量大语言模型的长程执行能力 / The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs

1️⃣ 一句话总结

这篇论文揭示了大语言模型在长任务中的表现并非收益递减，而是单步精度的微小提升能带来任务完成长度的指数级增长，并发现模型错误会自我强化，而‘思考’机制能有效缓解这一问题并显著扩展单次任务执行长度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.18810

1️⃣ 一句话总结

arXiv ID: 2604.05551

1️⃣ 一句话总结

arXiv ID: 2509.09677

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.18810 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05551 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.09677 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.18810

arXiv ID: 2604.05551

arXiv ID: 2509.09677