arXiv最新AI论文速览速学

🔍

标签: #diversity preservation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Beyond Mode Elicitation: Diversity-Preserving Reinforcement Learning via Latent Diffusion Reasoner 02-03

arXiv ID: 2602.01705

arXiv 提交日期: 2026-02-02

llm reinforcement learning model training latent diffusion reasoning diversity preservation chain-of-thought exploration

超越模式激发：通过潜在扩散推理器实现多样性保持的强化学习 / Beyond Mode Elicitation: Diversity-Preserving Reinforcement Learning via Latent Diffusion Reasoner

1️⃣ 一句话总结

这篇论文提出了一种名为LaDi-RL的新方法，它通过在一个连续的潜在空间中进行扩散引导的探索来优化大语言模型的推理过程，有效避免了传统方法中因强化学习导致思维链多样性下降的问题，从而在代码生成和数学推理任务上取得了更好的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.00747

arXiv 提交日期: 2026-01-02

llm theory model training reasoning creativity distribution collapse variational objective diversity preservation

推理与创造力的权衡：迈向创造力驱动的问题解决 / The Reasoning-Creativity Trade-off: Toward Creativity-Driven Problem Solving

1️⃣ 一句话总结

这篇论文指出当前大语言模型过度追求推理正确性会扼杀创造力，并提出一个名为DCR的统一理论框架，为如何让AI模型在保持准确性的同时也能进行创造性思考提供了首个系统性的解决方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24146

arXiv 提交日期: 2025-12-30

model training reinforcement learning aigc diffusion models human preference alignment reward hacking mode collapse diversity preservation

通过方向性解耦对齐驯服扩散强化学习中的偏好模式坍缩 / Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

1️⃣ 一句话总结

这篇论文针对基于人类反馈的强化学习在优化文本到图像扩散模型时，容易导致模型生成风格单一、多样性丧失的‘偏好模式坍缩’问题，提出了一个量化该现象的新基准，并设计了一种通过方向性修正奖励信号来维持图像多样性的新方法，从而在保证图像质量的同时更好地与人类偏好对齐。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.07430

arXiv 提交日期: 2025-09-09

reinforcement learning llm model training divergence selection diversity preservation rlvr f-divergence multi-attempt performance

散度选择：一个被忽视的缓解带可验证奖励强化学习中多样性崩溃的关键 / The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过选择特定的散度度量来防止大型语言模型在强化学习微调过程中丢失多样性，从而同时提升单次和多次尝试的生成性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.01705

1️⃣ 一句话总结

arXiv ID: 2601.00747

1️⃣ 一句话总结

arXiv ID: 2512.24146

1️⃣ 一句话总结

arXiv ID: 2509.07430

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.01705 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.00747 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24146 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.07430 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.01705

arXiv ID: 2601.00747

arXiv ID: 2512.24146

arXiv ID: 2509.07430