arXiv最新AI论文速览速学

📄

2511.22146

🤖 系统

12-04 15:11

llm model training natural language processing

diffusion language models causal reasoning attention mechanism concept-guided learning reasoning tasks

C$^2$DLM：因果概念引导的扩散大语言模型 / C$^2$DLM: Causal Concept-Guided Diffusion Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种新的扩散大语言模型，通过引入概念级的因果图来指导模型学习概念间的因果关系，从而显著提升了模型的推理能力和训练效率。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.21338

🤖 系统

12-04 15:02

natural language processing model training model evaluation

diffusion language models context comprehension masked denoising training objective attention bias

面具可能成为干扰：论扩散语言模型中的上下文理解 / Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models

1️⃣ 一句话总结

这篇论文研究发现，新型的掩码扩散语言模型在理解文本上下文时存在两个主要问题：一是过分关注局部信息而忽略远处内容，二是生成文本所需的额外掩码符号会严重干扰模型对原始信息的处理；作者通过提出一种新的训练方法，有效减少了掩码的干扰，提升了模型的稳健性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.03276

🤖 系统

11-30 17:50

natural language processing model training machine learning

diffusion language models autoregressive models data efficiency pre-training model scaling

📄 论文总结

扩散语言模型是超级数据学习者 / Diffusion Language Models are Super Data Learners

1️⃣ 一句话总结

这项研究发现，在数据有限的情况下，扩散语言模型通过多轮训练能持续超越自回归模型，这得益于其任意顺序建模、密集计算和内置数据增强能力，即使在小规模数据上也能取得优异的下游任务表现。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.14961

🤖 系统

11-30 17:42

llm model training theory

recurrent-depth models diffusion language models parallel sampling generation efficiency autoregressive generation

📄 论文总结

循环深度模型的高效并行采样器及其与扩散语言模型的关联 / Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

1️⃣ 一句话总结

这篇论文提出了一种新的并行采样方法，通过借鉴扩散模型的思想，显著加速了循环深度语言模型的文本生成速度，在无需额外调优的情况下实现了高达5倍的效率提升。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2509.06949

🤖 系统

11-30 17:30

reinforcement learning llm model training

diffusion language models reasoning tasks curriculum learning mathematical reasoning trajectory optimization

📄 论文总结

面向扩散大语言模型的强化学习框架革新 / Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为TraceRL的强化学习框架，通过引入轨迹感知训练和扩散价值模型，显著提升了扩散语言模型在数学推理和代码生成等复杂任务上的性能，并发布了开源工具以支持实际应用。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2508.19982

🤖 系统

11-30 17:25

natural language processing model training model evaluation

diffusion language models fast decoding early convergence inference acceleration prophet method

📄 论文总结

扩散语言模型在解码前已知答案 / Diffusion Language Models Know the Answer Before Decoding

1️⃣ 一句话总结

这项研究发现扩散语言模型在生成过程中很早就已确定正确答案，并提出了一种无需训练的动态解码方法，可在保持质量的同时将推理速度提升最高3.4倍。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2511.22146

1️⃣ 一句话总结

2511.21338

1️⃣ 一句话总结

2511.03276

📄 论文总结

1️⃣ 一句话总结

2510.14961

📄 论文总结

1️⃣ 一句话总结

2509.06949

📄 论文总结

1️⃣ 一句话总结

2508.19982

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2511.22146 📝

1️⃣ 一句话总结

2511.21338 📝

1️⃣ 一句话总结

2511.03276 📝

📄 论文总结

1️⃣ 一句话总结

2510.14961 📝

📄 论文总结

1️⃣ 一句话总结

2509.06949 📝

📄 论文总结

1️⃣ 一句话总结

2508.19982 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2511.22146

2511.21338

2511.03276

2510.14961

2509.06949

2508.19982