arXiv最新AI论文速览速学

🔍

标签: #kv cache ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference 02-14

arXiv ID: 2602.08329

arXiv 提交日期: 2026-02-09

llm model training systems kv cache sparse attention long-context inference efficiency pre-hoc sparsity

通过事前稀疏化实现近似最优的KV选择，用于长上下文推理 / Near-Oracle KV Selection via Pre-hoc Sparsity for Long-Context Inference

1️⃣ 一句话总结

这篇论文提出了一种名为‘事前稀疏化’的新方法，它能在大型语言模型推理时，提前筛选出关键信息并丢弃不重要的部分，从而在保证回答准确性的前提下，大幅减少计算量和提升处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03203

arXiv 提交日期: 2026-02-03

llm model training systems kv cache eviction policy reasoning models memory optimization reinforcement learning

ForesightKV：通过学习长期贡献优化推理模型的KV缓存淘汰机制 / ForesightKV: Optimizing KV Cache Eviction for Reasoning Models by Learning Long-Term Contribution

1️⃣ 一句话总结

这篇论文提出了一个名为ForesightKV的智能缓存管理框架，它通过结合监督学习和强化学习来预测并淘汰推理过程中不重要的中间数据，从而在只使用一半缓存的情况下，显著提升大语言模型处理长文本时的效率和性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21709

arXiv 提交日期: 2026-01-29

llm theory model evaluation attention patterns kv cache rotary positional embeddings inference acceleration model pruning

注意力模式为何存在：一种统一的时序视角分析 / Why Attention Patterns Exist: A Unifying Temporal Perspective Analysis

1️⃣ 一句话总结

这篇论文提出了一个名为TAPPA的统一框架，从时序连续性的角度解释了大型语言模型中各种注意力模式的成因，并将其分为可预测和不可预测两类，这一理论不仅深化了对注意力机制的理解，还能有效指导模型推理加速和压缩任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17668

arXiv 提交日期: 2026-01-25

llm systems model evaluation kv cache inference optimization memory compression gating mechanism efficient decoding

快速KVzip：通过门控KV淘汰实现高效准确的大语言模型推理 / Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction

1️⃣ 一句话总结

这篇论文提出了一种新的、基于门控机制的大语言模型推理加速方法，它能像智能管家一样自动识别并保留对话中最重要的信息，从而在几乎不影响模型回答质量的前提下，大幅减少计算负担，让大模型运行得更快、更省资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14724

arXiv 提交日期: 2026-01-21

multi-modal model evaluation systems video understanding kv cache streaming video attention mechanism efficient inference

HERMES：将KV缓存作为分层内存以实现高效的流式视频理解 / HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding

1️⃣ 一句话总结

本文提出了一种名为HERMES的新方法，它巧妙地将模型处理视频时产生的中间数据（KV缓存）组织成分层记忆，从而在无需额外训练的情况下，实现了对连续视频流的实时、准确理解，同时大幅降低了计算和内存开销。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14681

arXiv 提交日期: 2025-12-16

llm model training systems parallel decoding inference acceleration jacobi forcing distillation kv cache

使用雅可比强制实现快速准确的因果并行解码 / Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

1️⃣ 一句话总结

这篇论文提出了一种名为‘雅可比强制’的训练方法，能够将传统顺序生成的大语言模型高效地转化为并行解码模型，在保持生成质量的同时，显著提升了推理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14699

arXiv 提交日期: 2025-12-16

video generation model training systems long video generation memory mechanism kv cache streaming video attention efficiency

MemFlow：用于一致且高效长视频叙事的自适应流动记忆 / MemFlow: Flowing Adaptive Memory for Consistent and Efficient Long Video Narratives

1️⃣ 一句话总结

这篇论文提出了一个名为MemFlow的新方法，它通过动态选择和激活与当前生成内容最相关的历史画面来管理记忆，从而在生成超长视频时，既能高效地保持故事内容的连贯性，又几乎不影响生成速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.00722

arXiv 提交日期: 2025-11-30

llm systems model training long-context reasoning knowledge distillation retrieval algorithms kv cache memory optimization

SpeContext：利用大语言模型中的推测性上下文稀疏性实现高效长上下文推理 / SpeContext: Enabling Efficient Long-context Reasoning with Speculative Context Sparsity in LLMs

1️⃣ 一句话总结

这篇论文提出了一种名为SpeContext的新方法，它通过使用一个轻量化的“蒸馏”模型来智能筛选长文本中的关键信息，并结合软硬件协同优化，在几乎不影响大模型回答准确性的前提下，大幅提升了长文本处理的速度和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.22973

arXiv 提交日期: 2025-11-28

video generation model training benchmark block diffusion long-video generation kv cache temporal consistency coherence metrics

BlockVid：用于高质量、一致性分钟级视频生成的块扩散模型 / BlockVid: Block Diffusion for High-Quality and Consistent Minute-Long Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为BlockVid的新方法，通过改进块扩散技术、引入语义感知缓存和新的训练策略，有效解决了生成长视频时常见的错误累积和连贯性问题，并在新建立的评测基准上显著超越了现有方法，能够生成更高质量、更连贯的分钟级长视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.20714

arXiv 提交日期: 2025-11-25

video generation model training agents block-diffusion world models semi-autoregressive decoding video streaming kv cache

Inferix：基于块扩散的新一代世界模拟推理引擎 / Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

1️⃣ 一句话总结

这篇论文提出了一个名为Inferix的新型推理引擎，它采用块扩散技术来生成高质量、连贯且可交互的长视频，专门用于提升世界模拟的真实性和效率，为智能体和游戏等领域提供更强大的仿真能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.08329

1️⃣ 一句话总结

arXiv ID: 2602.03203

1️⃣ 一句话总结

arXiv ID: 2601.21709

1️⃣ 一句话总结

arXiv ID: 2601.17668

1️⃣ 一句话总结

arXiv ID: 2601.14724

1️⃣ 一句话总结

arXiv ID: 2512.14681

1️⃣ 一句话总结

arXiv ID: 2512.14699

1️⃣ 一句话总结

arXiv ID: 2512.00722

1️⃣ 一句话总结

arXiv ID: 2511.22973

1️⃣ 一句话总结

arXiv ID: 2511.20714

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.08329 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03203 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21709 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17668 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14681 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14699 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.00722 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.22973 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.20714 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.08329

arXiv ID: 2602.03203

arXiv ID: 2601.21709

arXiv ID: 2601.17668

arXiv ID: 2601.14724

arXiv ID: 2512.14681

arXiv ID: 2512.14699

arXiv ID: 2512.00722

arXiv ID: 2511.22973

arXiv ID: 2511.20714