arXiv最新AI论文速览速学

🔍

标签: #kl divergence ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment 05-10

arXiv ID: 2605.03327

arXiv 提交日期: 2026-05-05

llm reinforcement learning model training credit assignment policy optimization chain of thought kl divergence reasoning

分布导向策略优化：用于细粒度信用分配 / DGPO: Distribution Guided Policy Optimization for Fine Grained Credit Assignment

1️⃣ 一句话总结

本文提出了一种名为分布导向策略优化的强化学习新框架，通过将模型输出分布的变化作为灵活引导信号，代替传统算法中死板的惩罚，从而在长链条推理任务中精准识别关键步骤，并鼓励模型探索更多样化的解题路径。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.02375

arXiv 提交日期: 2026-05-04

reinforcement learning llm rlvr binary rewards diversity collapse kl divergence model misspecification

二元奖励与强化学习：根本性挑战 / Binary Rewards and Reinforcement Learning: Fundamental Challenges

1️⃣ 一句话总结

这篇论文揭示了在语言模型中使用二元奖励进行强化学习时，模型虽然能提高单次回答的正确率，但会导致多样性和覆盖率下降，并从理论层面解释了这一现象的根源：二元奖励使优化目标存在内在缺陷，而常用的KL正则化方法虽然能在理想情况下选出接近基模型的有效答案分布，但在实际模型不匹配时，反而会促使模型只生成少量重复的正确回答，从而失去多样性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.28036

arXiv 提交日期: 2026-04-30

machine learning theory exponential families kl divergence variational inference information geometry log-partition function

从单个KL恒等式看指数族分布 / Exponential families from a single KL identity

1️⃣ 一句话总结

本文发现了一个简洁的KL散度恒等式，仅通过它和KL散度非负的性质，无需复杂数学推导，就能统一推导出指数族分布的多个核心结论，包括吉布斯变分原理、投影定理和熵正则化强化学习中的指数倾斜公式等。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24005

arXiv 提交日期: 2026-04-27

agents reinforcement learning llm on-policy distillation curriculum learning multi-turn agents kl divergence benchmark

TCOD：多轮自主智能体在线策略蒸馏中的时间课程探索 / TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents

1️⃣ 一句话总结

本文提出了一种名为TCOD的简单有效方法，通过循序渐进的课程式训练策略，让小型模型在模仿大型教师模型处理多步骤任务（如操作虚拟环境和在线购物）时，避免因错误积累导致的训练不稳定，从而显著提升其成功率，甚至在某些任务上超越教师模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13440

arXiv 提交日期: 2026-04-15

model training llm systems quantization sensitivity analysis kl divergence edge deployment mixed-precision

量化视角下的KL透镜：针对混合精度SSM-Transformer模型的快速、仅前向传播敏感度分析 / A KL Lens on Quantization: Fast, Forward-Only Sensitivity for Mixed-Precision SSM-Transformer Models

1️⃣ 一句话总结

这篇论文提出了一种无需反向传播的快速量化敏感度分析方法，通过KL散度指标精准识别混合架构模型中对量化最敏感的组件，从而在资源受限的边缘设备上高效部署大型语言模型，同时保持高精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12163

arXiv 提交日期: 2026-03-12

theory model training machine learning continual learning catastrophic forgetting mixture models kl divergence post-training

训练后遗忘的定量表征 / A Quantitative Characterization of Forgetting in Post-Training

1️⃣ 一句话总结

这篇论文通过理论分析，揭示了生成模型在持续训练后发生遗忘的根本原因，并精确量化了遗忘的程度，指出遗忘主要取决于训练目标函数的选择、新旧任务数据的重叠程度以及训练时的数据采样方式。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16142

arXiv 提交日期: 2026-02-18

theory machine learning model evaluation density estimation covering numbers convex geometry kl divergence mixture models

凸集的比率覆盖与最优混合密度估计 / Ratio Covers of Convex Sets and Optimal Mixture Density Estimation

1️⃣ 一句话总结

这篇论文在无需对基础密度做任何限制性假设的条件下，解决了从有限个候选密度中估计目标密度（包括直接选择和混合模型）的问题，推导出了最优的估计误差保证，其核心突破在于证明了一个关于凸集比率覆盖的新几何定理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.05664

arXiv 提交日期: 2025-11-07

model training model evaluation natural language processing diffusion models inference acceleration sampling methods kl divergence generation efficiency

KLASS：基于KL引导的掩码扩散模型快速推理方法 / KLASS: KL-Guided Fast Inference in Masked Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一种名为KLASS的快速采样方法，通过利用KL散度识别稳定预测，在不额外训练模型的情况下大幅加速掩码扩散模型的生成过程，并在文本、图像和分子生成等多个领域保持甚至提升了生成质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.03327

1️⃣ 一句话总结

arXiv ID: 2605.02375

1️⃣ 一句话总结

arXiv ID: 2604.28036

1️⃣ 一句话总结

arXiv ID: 2604.24005

1️⃣ 一句话总结

arXiv ID: 2604.13440

1️⃣ 一句话总结

arXiv ID: 2603.12163

1️⃣ 一句话总结

arXiv ID: 2602.16142

1️⃣ 一句话总结

arXiv ID: 2511.05664

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.03327 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.02375 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.28036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24005 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13440 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12163 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16142 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.05664 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.03327

arXiv ID: 2605.02375

arXiv ID: 2604.28036

arXiv ID: 2604.24005

arXiv ID: 2604.13440

arXiv ID: 2603.12163

arXiv ID: 2602.16142

arXiv ID: 2511.05664