🤖 系统
11-30 17:50
📄 论文总结
扩散语言模型是超级数据学习者 / Diffusion Language Models are Super Data Learners
1️⃣ 一句话总结
这项研究发现,在数据有限的情况下,扩散语言模型通过多轮训练能持续超越自回归模型,这得益于其任意顺序建模、密集计算和内置数据增强能力,即使在小规模数据上也能取得优异的下游任务表现。
请先 登录 后再提交论文
扩散语言模型是超级数据学习者 / Diffusion Language Models are Super Data Learners
这项研究发现,在数据有限的情况下,扩散语言模型通过多轮训练能持续超越自回归模型,这得益于其任意顺序建模、密集计算和内置数据增强能力,即使在小规模数据上也能取得优异的下游任务表现。
NaViL:数据约束下重新思考原生多模态大语言模型的扩展特性 / NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints
这项研究提出了一种名为NaViL的原生多模态大模型,通过端到端训练方式探索了视觉编码器与大语言模型之间的正向扩展关系,并在14个基准测试中验证了其高效且具有竞争力的性能。
思维增强预训练 / Thinking Augmented Pre-training
这篇论文提出了一种通过自动生成思维轨迹来增强文本数据的方法,能够将大语言模型预训练的数据效率提升三倍,并在多个推理任务上显著提升模型性能。