arXiv最新AI论文速览速学

🔍

标签: #inference optimization ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems 03-16

arXiv ID: 2603.10726

arXiv 提交日期: 2026-03-11

llm systems model evaluation prefix caching side channel attack multi-tenant security inference optimization cache management

CacheSolidarity：防止多租户大语言模型服务系统中的前缀缓存侧信道攻击 / CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

1️⃣ 一句话总结

这篇论文提出了一种名为CacheSolidarity的新系统，它能在不牺牲性能的前提下，有效防止多租户大语言模型服务中因共享前缀缓存而引发的计时侧信道攻击，从而保障用户数据安全。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09232

arXiv 提交日期: 2026-03-10

audio model evaluation natural language processing contrastive decoding audio language models error analysis inference optimization transition matrix

对比解码如何增强大型音频语言模型？ / How Contrastive Decoding Enhances Large Audio Language Models?

1️⃣ 一句话总结

这项研究通过系统评估发现，对比解码技术能有效纠正大型音频语言模型中‘否认音频存在’或‘依赖猜测’的错误，但无法修正逻辑推理错误，从而为根据模型自身错误特点选择合适的增强策略提供了清晰指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04716

arXiv 提交日期: 2026-03-05

llm systems model evaluation resource allocation inference optimization prefill-decode disaggregation slo queuing theory

面向满足服务水平目标的预填充-解码分离式大语言模型推理的计算资源分配 / SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference

1️⃣ 一句话总结

这篇论文提出了一种结合理论建模和实际测量的方法，来精确计算在满足特定服务质量和请求特征（如输入输出长度）的条件下，预填充和解码这两个关键阶段各自需要多少计算资源，从而高效部署大语言模型推理服务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02599

arXiv 提交日期: 2026-03-03

systems llm model training multi-model serving resource efficiency model disaggregation inference optimization quantization

SUN：共享下一词预测以实现高效的多LLM解耦服务 / SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

1️⃣ 一句话总结

这篇论文提出了一种名为SUN的新方法，通过将大语言模型的解码部分冻结并共享给多个模型使用，显著提升了多模型同时服务时的GPU利用率和系统吞吐量，同时保持了模型的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01875

arXiv 提交日期: 2026-03-02

llm model training systems knowledge distillation training efficiency inference optimization framework large language models

KDFlow：一个面向大语言模型、用户友好且高效的知识蒸馏框架 / KDFlow: A User-Friendly and Efficient Knowledge Distillation Framework for Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为KDFlow的新框架，它通过解耦教师模型推理和学生模型训练的架构，并采用创新的数据传输策略，显著提升了大语言模型知识蒸馏过程的效率和易用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01639

arXiv 提交日期: 2026-03-02

llm systems model evaluation speculative decoding reinforcement learning inference optimization adaptive drafting throughput maximization

学习草拟：基于强化学习的自适应推测解码 / Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为‘学习草拟’的新方法，它利用强化学习训练两个相互适应的策略来动态协调大语言模型的草拟和验证阶段，从而直接优化整体解码速度，在多种任务上实现了比现有最佳方法高出最多36.4%的加速效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03495

arXiv 提交日期: 2026-02-03

llm systems model training mixture of experts inference optimization parameter offloading cpu-gpu co-execution workload-aware caching

DALI：一种面向本地PC高效MoE推理的工作负载感知卸载框架 / DALI: A Workload-Aware Offloading Framework for Efficient MoE Inference on Local PCs

1️⃣ 一句话总结

本文提出了一种名为DALI的智能框架，它通过动态分配计算任务、精准预测和优化缓存策略，显著提升了在普通个人电脑上运行大型混合专家语言模型的效率和速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20088

arXiv 提交日期: 2026-01-27

llm model training systems quantization knowledge distillation model compression inference optimization post-training

用于NVFP4推理精度恢复的量化感知蒸馏 / Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery

1️⃣ 一句话总结

这篇论文提出了一种名为量化感知蒸馏（QAD）的方法，它能有效且稳定地将高精度大模型的“知识”迁移到经过压缩的4位量化模型中，从而在几乎不损失精度的情况下，让模型在资源受限的设备上高效运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17668

arXiv 提交日期: 2026-01-25

llm systems model evaluation kv cache inference optimization memory compression gating mechanism efficient decoding

快速KVzip：通过门控KV淘汰实现高效准确的大语言模型推理 / Fast KVzip: Efficient and Accurate LLM Inference with Gated KV Eviction

1️⃣ 一句话总结

这篇论文提出了一种新的、基于门控机制的大语言模型推理加速方法，它能像智能管家一样自动识别并保留对话中最重要的信息，从而在几乎不影响模型回答质量的前提下，大幅减少计算负担，让大模型运行得更快、更省资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.17367

arXiv 提交日期: 2026-01-24

llm model training systems efficient transformers adaptive sparsity long-context attention mechanisms inference optimization

弹性注意力：面向高效Transformer的测试时自适应稀疏度比率 / Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers

1️⃣ 一句话总结

这篇论文提出了一种名为‘弹性注意力’的新方法，让大语言模型在处理长文本时，能够根据输入内容动态调整计算量，在保持高性能的同时实现更高效的推理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10726

1️⃣ 一句话总结

arXiv ID: 2603.09232

1️⃣ 一句话总结

arXiv ID: 2603.04716

1️⃣ 一句话总结

arXiv ID: 2603.02599

1️⃣ 一句话总结

arXiv ID: 2603.01875

1️⃣ 一句话总结

arXiv ID: 2603.01639

1️⃣ 一句话总结

arXiv ID: 2602.03495

1️⃣ 一句话总结

arXiv ID: 2601.20088

1️⃣ 一句话总结

arXiv ID: 2601.17668

1️⃣ 一句话总结

arXiv ID: 2601.17367

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10726 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09232 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04716 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02599 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01875 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01639 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03495 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20088 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17668 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.17367 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10726

arXiv ID: 2603.09232

arXiv ID: 2603.04716

arXiv ID: 2603.02599

arXiv ID: 2603.01875

arXiv ID: 2603.01639

arXiv ID: 2602.03495

arXiv ID: 2601.20088

arXiv ID: 2601.17668

arXiv ID: 2601.17367