arXiv最新AI论文速览速学

🔍

标签: #inference efficiency ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Keep The Essentials: Efficient Reference Conditioned Generation via Token Dropping 06-23

arXiv ID: 2606.23682

arXiv 提交日期: 2026-06-22

computer vision model training systems diffusion model token dropping reference-based generation inference efficiency image editing

保留要点：通过令牌丢弃实现高效的参考条件生成 / Keep The Essentials: Efficient Reference Conditioned Generation via Token Dropping

1️⃣ 一句话总结

本文提出一种名为Sparse Context的方法，通过在推理时丢弃大部分参考图像的冗余令牌（token），并微调模型以适应随机丢失模式，在不降低生成质量的前提下，将多参考图像生成速度提升4倍、单参考生成速度提升2倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.11552

arXiv 提交日期: 2026-06-10

llm model training speculative decoding diffusion language models autoregressive decoding inference efficiency training interventions

教扩散模型从左到右进行推测解码 / Teaching Diffusion to Speculate Left-to-Right

1️⃣ 一句话总结

本文提出三种训练干预方法（位置加权、首错误聚焦损失、链损失），弥合了扩散语言模型双向生成猜测令牌与自回归目标模型从左到右验证之间的不对称性，从而在不增加推理成本的前提下，将推测解码的接受长度提升了21%到76%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.11164

arXiv 提交日期: 2026-06-09

llm systems kv cache compression decoding-time optimization hierarchical budget allocation mathematical reasoning inference efficiency

ReasonAlloc：面向推理模型的解码阶段键值缓存分层预算分配方法 / ReasonAlloc: Hierarchical Decoding-Time KV Cache Budget Allocation for Reasoning Models

1️⃣ 一句话总结

本文提出一种无需重新训练的方法ReasonAlloc，在长链式推理场景下，通过离线层间与在线头间两级动态分配键值缓存预算，解决了传统均匀裁剪策略在推理过程中效率低下的问题，显著提升了小预算时模型的数学推理性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.02011

arXiv 提交日期: 2026-06-01

llm model evaluation model training low-bit quantization reasoning models inference efficiency failure mitigation token length

极端低位推理在推理模型中的应用：失败模式与针对性恢复 / Extreme Low-Bit Inference in Reasoning Models: Failure Modes and Targeted Recovery

1️⃣ 一句话总结

本文发现，将推理模型（如Qwen3）的权重量化到2位（极低精度）会导致模型生成大量重复、卡顿或过早结束的错误推理过程，从而抵消速度优势；通过引入两种轻量方法（高精度规划大纲和循环检测恢复），可以大幅修复这些错误，使2位推理在保持加速的同时恢复接近原始模型的准确率，比如将Qwen3-8B在MATH-500上的准确率从17.2%提升到74.2%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27358

arXiv 提交日期: 2026-05-26

llm systems model training mixture of experts on-device deployment scaling law inference efficiency mobile llm

MobileMoE：面向移动端的混合专家模型扩展 / MobileMoE: Scaling On-Device Mixture of Experts

1️⃣ 一句话总结

本文提出了MobileMoE，一种在手机上高效运行的轻量级混合专家模型，通过研究发现并运用了一种兼顾内存和计算效率的最佳架构（适度稀疏、细粒度与共享专家），使得参数量仅0.3-0.9亿的模型在性能上超越或媲美现有主流大模型，同时在手机端推理速度提升2-4倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.14217

arXiv 提交日期: 2026-05-14

llm model training model evaluation parameter efficient finetuning inference efficiency prefill-only adaptation multi-adapter serving accuracy-throughput tradeoff

PreFT：仅预填充微调实现高效推理 / PreFT: Prefill-only finetuning for efficient inference

1️⃣ 一句话总结

本文提出一种名为PreFT的微调方法，仅在模型处理输入（预填充阶段）应用适配器，在生成阶段丢弃它，从而在几乎不影响模型性能的情况下，将同时服务数百个个性化适配器的推理吞吐量提升近两倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24954

arXiv 提交日期: 2026-04-27

multi-modal model training model evaluation audio input multimodal understanding inference efficiency open-source

Nemotron 3 Nano Omni：高效且开放的多模态人工智能 / Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence

1️⃣ 一句话总结

本文介绍了Nemotron 3 Nano Omni模型，它在支持文本、图像和视频的基础上首次原生集成音频输入，通过架构创新和数据优化在文档理解、长音视频理解和智能体计算机使用等任务上取得领先性能，并采用高效的30B-A3B骨干网络和模态令牌压缩技术，大幅降低推理延迟、提升吞吐量，同时开源多种精度的模型权重及部分训练数据和代码。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.04987

arXiv 提交日期: 2026-04-05

llm model training systems speculative sampling decoding acceleration constrained optimization auto-regressive models inference efficiency

Cactus：通过约束接受推测采样加速自回归解码 / Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

1️⃣ 一句话总结

这篇论文提出了一种名为Cactus的新方法，它通过一个受约束的优化框架来改进推测采样技术，在保证大模型输出质量基本不变的前提下，显著提升了文本生成的速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16987

arXiv 提交日期: 2026-03-17

multi-modal model training systems vision-language models inference efficiency latency optimization compact models model serving

高效紧凑视觉语言模型的实用优化方案 / Empirical Recipes for Efficient and Compact Vision-Language Models

1️⃣ 一句话总结

这篇论文通过系统分析发现，小型视觉语言模型的实际推理速度远低于预期，并据此提出了一套实用的优化方案，能显著降低模型响应延迟而不损失精度，同时展示了如何为这类紧凑模型扩展结构化视觉感知能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14903

arXiv 提交日期: 2026-03-16

llm natural language processing model training simultaneous machine translation positional encoding kv cache inference efficiency fine-tuning strategy

ExPosST：基于大语言模型的同声传译显式定位与自适应掩码框架 / ExPosST: Explicit Positioning with Adaptive Masking for LLM-Based Simultaneous Machine Translation

1️⃣ 一句话总结

这篇论文提出了一个名为ExPosST的新框架，通过为输入源语言词分配固定位置并采用策略一致的微调方法，解决了大语言模型在同声传译任务中解码效率与位置一致性难以兼顾的难题，从而在多种语言对上都实现了高效且准确的实时翻译。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.23682

1️⃣ 一句话总结

arXiv ID: 2606.11552

1️⃣ 一句话总结

arXiv ID: 2606.11164

1️⃣ 一句话总结

arXiv ID: 2606.02011

1️⃣ 一句话总结

arXiv ID: 2605.27358

1️⃣ 一句话总结

arXiv ID: 2605.14217

1️⃣ 一句话总结

arXiv ID: 2604.24954

1️⃣ 一句话总结

arXiv ID: 2604.04987

1️⃣ 一句话总结

arXiv ID: 2603.16987

1️⃣ 一句话总结

arXiv ID: 2603.14903

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.23682 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.11552 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.11164 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.02011 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27358 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.14217 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24954 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.04987 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16987 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14903 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.23682

arXiv ID: 2606.11552

arXiv ID: 2606.11164

arXiv ID: 2606.02011

arXiv ID: 2605.27358

arXiv ID: 2605.14217

arXiv ID: 2604.24954

arXiv ID: 2604.04987

arXiv ID: 2603.16987

arXiv ID: 2603.14903