arXiv ID:
2510.13998
BitNet蒸馏 / BitNet Distillation
1️⃣ 一句话总结
这篇论文提出了一种名为BitDistill的轻量级方法,能够将现成的高精度大语言模型针对特定任务微调成仅使用1.58位(三元权重)的极简版本,在保持与原模型相当性能的同时,大幅降低了内存占用并提升了CPU推理速度。
BitNet蒸馏 / BitNet Distillation
这篇论文提出了一种名为BitDistill的轻量级方法,能够将现成的高精度大语言模型针对特定任务微调成仅使用1.58位(三元权重)的极简版本,在保持与原模型相当性能的同时,大幅降低了内存占用并提升了CPU推理速度。
德国公共资源库——为德语语言模型提供的1540亿个开放许可文本标记 / The German Commons - 154 Billion Tokens of Openly Licensed Text for German Language Models
这篇论文构建了迄今为止最大的开放许可德语文本数据集,包含1540亿个高质量文本标记,解决了德语语言模型开发中公开数据稀缺的问题,并提供了可复现的数据处理工具。
大语言模型也会得'脑退化'! / LLMs Can Get "Brain Rot"!
这项研究证实,持续用低质量的网络文本训练大语言模型会导致其推理能力、长文本理解、安全性等多方面认知功能显著下降,且这种损害难以通过后续优化完全恢复,提醒我们应将数据质量视为模型训练期的安全问题。
RAGCap-Bench:评估大语言模型在代理式检索增强生成系统中的能力基准 / RAGCap-Bench: Benchmarking Capabilities of LLMs in Agentic Retrieval Augmented Generation Systems
这篇论文提出了一个名为RAGCap-Bench的评估基准,专门用于测试大语言模型在复杂检索增强生成系统中执行中间任务的能力,发现具备更强中间推理能力的模型能取得更好的整体表现。
关于项目级代码补全的预训练研究 / On Pretraining for Project-Level Code Completion
这项研究表明,通过调整位置编码参数扩展模型上下文窗口,能在较小数据集上实现与大型模型相媲美的项目级代码补全性能,同时发现更简单的文件级训练方法同样高效,降低了研究门槛。
大语言模型引导的分层检索 / LLM-guided Hierarchical Retrieval
这篇论文提出了一个名为LATTICE的分层检索框架,通过将文档库组织成语义树结构,并利用大语言模型进行导航,实现了对复杂查询的高效检索,在零样本设置下达到了最先进的性能。
镜像推测解码:打破大语言模型推理中的串行瓶颈 / Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference
本文提出了一种名为镜像推测解码的新算法,通过并行异构计算和多令牌推测流技术,在大幅降低大语言模型推理延迟的同时保持高准确率,实现了比现有方法更优的加速效果。
Diff-XYZ:一个用于评估代码差异理解的基准 / Diff-XYZ: A Benchmark for Evaluating Diff Understanding
这篇论文提出了一个名为Diff-XYZ的基准测试,用于评估大型语言模型理解和处理代码变更的能力,并通过实验发现不同格式的代码差异表示适用于不同规模和任务的模型。
大型推理模型是否可被打断? / Are Large Reasoning Models Interruptible?
这篇论文研究发现,在需要长时间推理的任务中,当前顶尖的大型推理模型在遇到中途打断或信息更新时表现会大幅下降,揭示了传统静态评估方法高估了模型在实际动态环境中的鲁棒性。
揭秘强化学习在智能体推理中的应用 / Demystifying Reinforcement Learning in Agentic Reasoning
这项研究通过数据、算法和推理模式三个关键角度,揭示了提升大型语言模型智能体推理能力的有效方法,包括使用真实工具使用轨迹数据、探索友好的训练技巧以及减少工具调用的审慎策略,使得小模型也能达到甚至超越大模型的性能。
请先 登录 后再提交论文