📄 论文总结
扩散语言模型是超级数据学习者 / Diffusion Language Models are Super Data Learners
1️⃣ 一句话总结
这项研究发现,在数据有限的情况下,扩散语言模型通过多轮训练能持续超越自回归模型,这得益于其任意顺序建模、密集计算和内置数据增强能力,即使在小规模数据上也能取得优异的下游任务表现。
请先 登录 后再提交论文
扩散语言模型是超级数据学习者 / Diffusion Language Models are Super Data Learners
这项研究发现,在数据有限的情况下,扩散语言模型通过多轮训练能持续超越自回归模型,这得益于其任意顺序建模、密集计算和内置数据增强能力,即使在小规模数据上也能取得优异的下游任务表现。
思维增强预训练 / Thinking Augmented Pre-training
这篇论文提出了一种通过自动生成思维轨迹来增强文本数据的方法,能够将大语言模型预训练的数据效率提升三倍,并在多个推理任务上显著提升模型性能。
面向更富多样性和挑战性的点云学习预训练:基于解耦视图的自监督交叉重建 / Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views
这篇论文提出了一种名为Point-PQAE的新型点云自监督学习方法,通过生成两个不同的点云视图并让它们相互重建,显著提升了预训练的难度和效果,在多个基准测试中性能优于现有方法。
TiKMiX:将数据影响力引入语言模型预训练的动态混合策略 / TiKMiX: Take Data Influence into Dynamic Mixture for Language Model Pre-training
这篇论文提出了一种名为TiKMiX的动态数据混合方法,通过实时评估不同数据领域对模型训练的影响并调整数据配比,显著提升了语言模型的性能,同时大幅降低了计算资源消耗。