arXiv最新AI论文速览速学

🔍

标签: #long context ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 119 72小时内新更新论文 72h更新 124 最新: MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling 03-04

arXiv ID: 2603.03001

arXiv 提交日期: 2026-03-03

natural language processing model training machine learning transformer mamba efficient training long context masked language modeling

MaBERT：一种用于高效长上下文掩码语言建模的、对填充安全的交错式Transformer-Mamba混合编码器 / MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

1️⃣ 一句话总结

这篇论文提出了一种名为MaBERT的新型混合编码器，它通过交替使用Transformer层和Mamba层，在保证高效处理长文本的同时，解决了传统模型计算成本高和填充数据污染状态的问题，显著提升了训练和推理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15814

arXiv 提交日期: 2026-02-17

natural language processing model training machine learning bidirectional encoder attention-free efficiency long context token classification

Avey-B：一种高效的非自回归双向编码器 / Avey-B

1️⃣ 一句话总结

这篇论文将原本用于自回归任务的Avey模型改造成了一个高效的双向编码器Avey-B，通过引入参数分离、稳定性优化和神经压缩等新技术，使其在多项文本理解任务上的表现超越了传统的Transformer编码器，同时能更高效地处理长文本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08426

arXiv 提交日期: 2026-02-09

llm model training systems attention mechanism efficiency positional encoding sparse attention long context

棱镜：一种基于频谱感知的块稀疏注意力机制 / Prism: Spectral-Aware Block-Sparse Attention

1️⃣ 一句话总结

这篇论文提出了一种名为Prism的新方法，它通过分析注意力信号中的频率成分，巧妙地解决了现有块稀疏注意力机制在识别重要信息块时效率低、精度差的问题，从而在不损失模型准确性的前提下，大幅提升了长文本处理的速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.16746

arXiv 提交日期: 2026-01-23

llm agents systems context pruning coding agents software engineering efficiency long context

SWE-Pruner：面向编程智能体的自适应上下文剪枝框架 / SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

1️⃣ 一句话总结

这篇论文提出了一种名为SWE-Pruner的智能剪枝框架，它通过模仿程序员‘选择性浏览’代码的习惯，能根据当前编程任务的目标（如‘关注错误处理’）动态压缩冗长的代码上下文，从而在显著减少计算开销和延迟的同时，有效保留关键代码逻辑和细节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02780

arXiv 提交日期: 2026-01-06

llm model training agents mixture-of-experts speculative decoding multi-token prediction knowledge distillation long context

MiMo-V2-Flash 技术报告 / MiMo-V2-Flash Technical Report

1️⃣ 一句话总结

这篇论文介绍了一个名为MiMo-V2-Flash的高效大型语言模型，它通过创新的专家混合结构和训练方法，在参数更少的情况下实现了与顶尖开源模型相媲美的推理和智能体能力，并且推理速度更快。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.24618

arXiv 提交日期: 2025-12-31

llm agents model training agentic pretraining lightweight llm reasoning tool use long context

Youtu-LLM：一个通过智能体导向预训练解锁轻量级大语言模型智能体潜力的模型 / Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models

1️⃣ 一句话总结

本文提出了Youtu-LLM，一个1.96B参数的轻量级大语言模型，通过创新的智能体导向预训练范式、支持长上下文的紧凑架构以及大规模高质量智能体轨迹数据构建，系统性地培养了模型的推理、规划和工具使用等底层认知能力，在智能体任务上显著超越了同类甚至更大规模的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.23319

arXiv 提交日期: 2025-11-28

llm model training natural language processing long context sparse attention memory length generalization moe

每个词元都重要：在大型语言模型中实现1600万超长上下文的泛化 / Every Token Counts: Generalizing 16M Ultra-Long Context in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘分层稀疏注意力’的新方法，并将其集成到模型中，成功让一个80亿参数的AI模型能够高效处理和记住长达1600万个词的超长文本信息，在多项测试中表现出色。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.21270

arXiv 提交日期: 2025-10-24

llm model training systems sparse attention efficiency optimization long context prefilling token permutation

通过令牌置换实现更稀疏的块稀疏注意力 / Sparser Block-Sparse Attention via Token Permutation

1️⃣ 一句话总结

这篇论文提出了一种名为PBS-Attn的新方法，通过重新排列输入序列中令牌的顺序，使得大语言模型在处理长文本时能够更高效地跳过不必要的计算块，从而在保持高精度的同时将预处理速度提升最高2.75倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.13697

arXiv 提交日期: 2025-10-15

llm model training systems code completion pretraining repository-level long context positional embeddings

关于项目级代码补全的预训练研究 / On Pretraining for Project-Level Code Completion

1️⃣ 一句话总结

这项研究表明，通过调整位置编码参数扩展模型上下文窗口，能在较小数据集上实现与大型模型相媲美的项目级代码补全性能，同时发现更简单的文件级训练方法同样高效，降低了研究门槛。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.06915

arXiv 提交日期: 2025-10-08

llm model evaluation model training reward modeling long context benchmark preference alignment context consistency

LongRM：揭示并突破奖励建模的上下文边界 / LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling

1️⃣ 一句话总结

本文提出了一个专门评估长上下文奖励模型的新基准Long-RewardBench，并开发了一种多阶段训练方法，使模型在长对话场景中既能准确判断回答与上下文的关联性，又保持了短文本处理能力，其8B参数模型性能甚至超越了一些70B级模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.03001

1️⃣ 一句话总结

arXiv ID: 2602.15814

1️⃣ 一句话总结

arXiv ID: 2602.08426

1️⃣ 一句话总结

arXiv ID: 2601.16746

1️⃣ 一句话总结

arXiv ID: 2601.02780

1️⃣ 一句话总结

arXiv ID: 2512.24618

1️⃣ 一句话总结

arXiv ID: 2511.23319

1️⃣ 一句话总结

arXiv ID: 2510.21270

1️⃣ 一句话总结

arXiv ID: 2510.13697

1️⃣ 一句话总结

arXiv ID: 2510.06915

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.03001 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15814 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08426 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.16746 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02780 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.24618 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.23319 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.21270 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.13697 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.06915 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.03001

arXiv ID: 2602.15814

arXiv ID: 2602.08426

arXiv ID: 2601.16746

arXiv ID: 2601.02780

arXiv ID: 2512.24618

arXiv ID: 2511.23319

arXiv ID: 2510.21270

arXiv ID: 2510.13697

arXiv ID: 2510.06915