每个词元都重要:在大型语言模型中实现1600万超长上下文的泛化 / Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为‘分层稀疏注意力’的新方法,并将其集成到模型中,成功让一个80亿参数的AI模型能够高效处理和记住长达1600万个词的超长文本信息,在多项测试中表现出色。
请先 登录 后再提交论文
每个词元都重要:在大型语言模型中实现1600万超长上下文的泛化 / Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models
这篇论文提出了一种名为‘分层稀疏注意力’的新方法,并将其集成到模型中,成功让一个80亿参数的AI模型能够高效处理和记住长达1600万个词的超长文本信息,在多项测试中表现出色。
通过令牌置换实现更稀疏的块稀疏注意力 / Sparser Block-Sparse Attention via Token Permutation
这篇论文提出了一种名为PBS-Attn的新方法,通过重新排列输入序列中令牌的顺序,使得大语言模型在处理长文本时能够更高效地跳过不必要的计算块,从而在保持高精度的同时将预处理速度提升最高2.75倍。
关于项目级代码补全的预训练研究 / On Pretraining for Project-Level Code Completion
这项研究表明,通过调整位置编码参数扩展模型上下文窗口,能在较小数据集上实现与大型模型相媲美的项目级代码补全性能,同时发现更简单的文件级训练方法同样高效,降低了研究门槛。
LongRM:揭示并突破奖励建模的上下文边界 / LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling
本文提出了一个专门评估长上下文奖励模型的新基准Long-RewardBench,并开发了一种多阶段训练方法,使模型在长对话场景中既能准确判断回答与上下文的关联性,又保持了短文本处理能力,其8B参数模型性能甚至超越了一些70B级模型。
CompLLM:面向长上下文问答的压缩方法 / CompLLM: Compression for Long Context Q&A
这篇论文提出了一种名为CompLLM的智能压缩技术,通过将长文本分段独立压缩,显著提升了大语言模型处理长文本时的速度和效率,同时保持甚至在某些情况下超越了原始模型的性能表现。