arXiv最新AI论文速览速学

🔍

标签: #diffusion language models ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Teaching Diffusion to Speculate Left-to-Right 06-11

arXiv ID: 2606.11552

arXiv 提交日期: 2026-06-10

llm model training speculative decoding diffusion language models autoregressive decoding inference efficiency training interventions

教扩散模型从左到右进行推测解码 / Teaching Diffusion to Speculate Left-to-Right

1️⃣ 一句话总结

本文提出三种训练干预方法（位置加权、首错误聚焦损失、链损失），弥合了扩散语言模型双向生成猜测令牌与自回归目标模型从左到右验证之间的不对称性，从而在不增加推理成本的前提下，将推测解码的接受长度提升了21%到76%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.10537

arXiv 提交日期: 2026-06-09

llm systems model training diffusion language models long-context inference kv caching attention sparsity acceleration

预填充扩散语言模型：面向长上下文推理的预测性预填充方法 / Prefilling-dLLM: Predictive Prefilling for Long-Context Inference in Diffusion Language Models

1️⃣ 一句话总结

本文提出一种无需重新训练的方法，通过将长文本分段缓存关键信息，并在生成时只选择最相关的片段进行计算，大幅加速了扩散语言模型处理长文本的速度（最高提速28倍），同时保持了甚至超过了原有模型的输出质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.04396

arXiv 提交日期: 2026-06-03

llm reinforcement learning model training diffusion language models trajectory-aware value head block-wise supervision compute efficiency

读取轨迹，引导路径：面向扩散语言模型的轨迹感知强化学习 / Read the Trace, Steer the Path: Trajectory-Aware Reinforcement Learning for Diffusion Language Models

1️⃣ 一句话总结

提出了一种名为CAPR的新型强化学习算法，通过巧妙利用扩散语言模型生成过程中的“去噪轨迹”信息（即各位置标记逐渐确定的过程），在不进行昂贵树搜索的情况下，实现类似树搜索的精细奖励分配，从而以更低的计算成本显著提升模型在数学推理等任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19726

arXiv 提交日期: 2026-05-19

llm machine learning model training diffusion language models sparse attention long-context modeling efficiency attention acceleration

扩散语言模型中基于块近似稀疏注意力的长上下文高效建模 / Efficient Long-Context Modeling in Diffusion Language Models via Block Approximate Sparse Attention

1️⃣ 一句话总结

本文提出了一种名为BA-Att的块近似稀疏注意力框架，通过在压缩后的低分辨率空间中识别重要信息区域，而非依赖固定的位置模式，实现了扩散语言模型在处理超长文本时的高效计算，在保持近乎完整注意力性能的同时，将计算速度提升了近7倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20079

arXiv 提交日期: 2026-04-22

llm model evaluation systems diffusion language models post-training quantization quantization robustness coding benchmarks low bitwidth

关于扩散语言模型在编程基准测试中的量化鲁棒性研究 / On the Quantization Robustness of Diffusion Language Models in Coding Benchmarks

1️⃣ 一句话总结

本文研究了扩散语言模型（如CoDA）在低比特量化时的表现，发现其比传统自回归模型（如Qwen3-1.7B）更能抵抗精度损失，在编程任务上能以更小的性能下降实现更高效的模型部署。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14001

arXiv 提交日期: 2026-04-15

natural language processing audio model training speech recognition diffusion language models asr rescoring ctc decoding joint decoding

用于语音识别的扩散语言模型 / Diffusion Language Models for Speech Recognition

1️⃣ 一句话总结

这篇论文探索了如何将扩散语言模型应用于语音识别，通过引入新的重打分和联合解码方法，有效结合了模型的强大语言知识与声学信息，显著提升了语音识别的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08302

arXiv 提交日期: 2026-04-09

llm model training natural language processing parallel decoding diffusion language models efficient inference self-refinement training strategy

DMax：面向扩散语言模型的激进并行解码方法 / DMax: Aggressive Parallel Decoding for dLLMs

1️⃣ 一句话总结

这篇论文提出了一种名为DMax的新方法，它通过将解码过程重新定义为从掩码嵌入到词嵌入的渐进式自我精炼，并采用新颖的训练策略，使得扩散语言模型能够进行激进的并行解码，在显著提升推理速度的同时，有效控制了错误累积，保持了文本生成的质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.05551

arXiv 提交日期: 2026-04-07

natural language processing model training model evaluation diffusion language models sequence-to-sequence few-step sampling self-conditioning fast inference

FastDiSS：面向序列到序列生成的少步匹配多步扩散语言模型——完整版 / FastDiSS: Few-step Match Many-step Diffusion Language Model on Sequence-to-Sequence Generation--Full Version

1️⃣ 一句话总结

这篇论文提出了一种新的训练框架，通过扰动自条件信号和引入噪声感知机制，解决了扩散模型在快速少步推理时因自条件误差累积导致的质量下降问题，在保持高质量生成的同时实现了高达400倍的推理加速。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.01624

arXiv 提交日期: 2026-04-02

llm natural language processing model evaluation diffusion language models hallucination mitigation uncertainty localization inference-time control factual accuracy

OSCAR：协同自验证与跨路径优化 / OSCAR: Orchestrated Self-verification and Cross-path Refinement

1️⃣ 一句话总结

这篇论文提出了一种名为OSCAR的新方法，它无需额外训练，就能让扩散语言模型在生成文本时，通过并行推理和自我比较来主动发现并修正可能产生的“幻觉”（即不准确或虚构的信息），从而显著提升生成内容的真实性和准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.22241

arXiv 提交日期: 2026-03-23

natural language processing model training llm diffusion language models memory enhancement bi-level optimization inference adaptation retrieval

MemDLM：内存增强的扩散语言模型训练 / MemDLM: Memory-Enhanced DLM Training

1️⃣ 一句话总结

这篇论文提出了一种名为MemDLM的新方法，通过在训练中引入一个模拟的去噪过程来减少扩散语言模型训练与推理之间的不匹配，从而让模型学得更快、更好，并且在推理时能更好地处理长文本和检索任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.11552

1️⃣ 一句话总结

arXiv ID: 2606.10537

1️⃣ 一句话总结

arXiv ID: 2606.04396

1️⃣ 一句话总结

arXiv ID: 2605.19726

1️⃣ 一句话总结

arXiv ID: 2604.20079

1️⃣ 一句话总结

arXiv ID: 2604.14001

1️⃣ 一句话总结

arXiv ID: 2604.08302

1️⃣ 一句话总结

arXiv ID: 2604.05551

1️⃣ 一句话总结

arXiv ID: 2604.01624

1️⃣ 一句话总结

arXiv ID: 2603.22241

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.11552 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.10537 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.04396 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19726 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20079 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14001 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08302 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.05551 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.01624 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.22241 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.11552

arXiv ID: 2606.10537

arXiv ID: 2606.04396

arXiv ID: 2605.19726

arXiv ID: 2604.20079

arXiv ID: 2604.14001

arXiv ID: 2604.08302

arXiv ID: 2604.05551

arXiv ID: 2604.01624

arXiv ID: 2603.22241