📄 论文总结
每个激活都增强:将通用推理器扩展至万亿参数开放语言基础 / Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation
1️⃣ 一句话总结
这篇论文提出了Ling 2.0系列模型,通过创新的稀疏激活和专家混合架构,在保持高计算效率的同时,将语言模型的推理能力成功扩展到了万亿参数规模。
请先 登录 后再提交论文
每个激活都增强:将通用推理器扩展至万亿参数开放语言基础 / Every Activation Boosted: Scaling General Reasoner to 1 Trillion Open Language Foundation
这篇论文提出了Ling 2.0系列模型,通过创新的稀疏激活和专家混合架构,在保持高计算效率的同时,将语言模型的推理能力成功扩展到了万亿参数规模。
缩放定律与模型架构:迈向推理高效的大型语言模型 / Scaling Laws Meet Model Architecture: Toward Inference-Efficient LLMs
这篇论文通过引入包含模型架构信息的条件缩放定律和搜索框架,在保持高精度的同时显著提升了大型语言模型的推理效率,相比现有模型最高可提升42%的推理吞吐量。
基于上下文感知的扩展定律预测任务性能 / Predicting Task Performance with Context-aware Scaling Laws
这项研究提出了一个结合训练计算量和上下文信息来预测大语言模型下游任务表现的新框架,解决了传统扩展定律无法准确评估实际应用效果的局限性。
ScaleDiff:为高级数学推理扩展难题规模 / ScaleDiff: Scaling Difficult Problems for Advanced Mathematical Reasoning
这篇论文提出了一种名为ScaleDiff的高效方法,通过自动筛选现有数据集中的难题并训练专门的生成器来大规模创造高难度数学问题,从而显著提升大型推理模型在复杂数学任务上的表现,同时大幅降低了计算成本和人工干预需求。
收益递减的错觉:衡量大语言模型的长程执行能力 / The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
这篇论文揭示了大语言模型在长任务中的表现并非收益递减,而是单步精度的微小提升能带来任务完成长度的指数级增长,并发现模型错误会自我强化,而‘思考’机制能有效缓解这一问题并显著扩展单次任务执行长度。
混合专家语言模型在推理任务中的最优稀疏性 / Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks
这项研究发现,混合专家模型在推理任务中的性能不仅取决于训练损失,更关键的是激活计算量和每个参数处理的数据量,推理能力需要大量数据支持,而记忆任务则受益于更多参数。
基于大语言模型的多智能体协作的规模化研究 / Scaling Large Language Model-based Multi-Agent Collaboration
这项研究发现,通过将大量AI智能体组织成网络进行协作,整体性能会随着智能体数量的增加而显著提升,且不规则网络结构比规则结构表现更好,揭示了智能体协作的规模化效应。