C$^2$DLM:因果概念引导的扩散大语言模型 / C$^2$DLM: Causal Concept-Guided Diffusion Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种新的扩散大语言模型,通过引入概念级的因果图来指导模型学习概念间的因果关系,从而显著提升了模型的推理能力和训练效率。
请先 登录 后再提交论文
C$^2$DLM:因果概念引导的扩散大语言模型 / C$^2$DLM: Causal Concept-Guided Diffusion Large Language Models
这篇论文提出了一种新的扩散大语言模型,通过引入概念级的因果图来指导模型学习概念间的因果关系,从而显著提升了模型的推理能力和训练效率。
面具可能成为干扰:论扩散语言模型中的上下文理解 / Masks Can Be Distracting: On Context Comprehension in Diffusion Language Models
这篇论文研究发现,新型的掩码扩散语言模型在理解文本上下文时存在两个主要问题:一是过分关注局部信息而忽略远处内容,二是生成文本所需的额外掩码符号会严重干扰模型对原始信息的处理;作者通过提出一种新的训练方法,有效减少了掩码的干扰,提升了模型的稳健性。
扩散语言模型是超级数据学习者 / Diffusion Language Models are Super Data Learners
这项研究发现,在数据有限的情况下,扩散语言模型通过多轮训练能持续超越自回归模型,这得益于其任意顺序建模、密集计算和内置数据增强能力,即使在小规模数据上也能取得优异的下游任务表现。
循环深度模型的高效并行采样器及其与扩散语言模型的关联 / Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models
这篇论文提出了一种新的并行采样方法,通过借鉴扩散模型的思想,显著加速了循环深度语言模型的文本生成速度,在无需额外调优的情况下实现了高达5倍的效率提升。
面向扩散大语言模型的强化学习框架革新 / Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models
这篇论文提出了一个名为TraceRL的强化学习框架,通过引入轨迹感知训练和扩散价值模型,显著提升了扩散语言模型在数学推理和代码生成等复杂任务上的性能,并发布了开源工具以支持实际应用。
扩散语言模型在解码前已知答案 / Diffusion Language Models Know the Answer Before Decoding
这项研究发现扩散语言模型在生成过程中很早就已确定正确答案,并提出了一种无需训练的动态解码方法,可在保持质量的同时将推理速度提升最高3.4倍。