arXiv最新AI论文速览速学

🔍

标签: #latency optimization ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Accuracy-Delay Trade-Off in LLM Offloading via Token-Level Uncertainty 02-16

arXiv ID: 2602.11530

arXiv 提交日期: 2026-02-12

llm systems model evaluation serving systems scheduling chain-of-thought latency optimization resource management

PASCAL：一种用于服务基于推理的大语言模型的阶段感知调度算法 / PASCAL: A Phase-Aware Scheduling Algorithm for Serving Reasoning-based Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为PASCAL的智能调度算法，它通过识别并优先处理大语言模型的‘思考’阶段来显著加快首个输出词的生成速度，同时巧妙管理‘回答’阶段的资源分配，从而在保证回答质量的前提下，大幅提升了推理类AI服务的响应效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.07958

arXiv 提交日期: 2026-02-08

llm systems model evaluation llm offloading uncertainty estimation edge computing latency optimization token-level inference

基于词元级不确定性的LLM卸载中的精度-延迟权衡 / Accuracy-Delay Trade-Off in LLM Offloading via Token-Level Uncertainty

1️⃣ 一句话总结

这篇论文提出了一种基于词元级不确定性的智能卸载框架，通过动态选择在本地还是边缘服务器上执行大语言模型推理，在保证精度的同时有效降低了多用户环境下的延迟。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04120

arXiv 提交日期: 2026-02-04

systems model evaluation multi-modal explainable ai edge computing distributed systems caching latency optimization

面向边缘AI系统的可扩展解释即服务 / Scalable Explainability-as-a-Service (XaaS) for Edge AI Systems

1️⃣ 一句话总结

这篇论文提出了一种名为‘解释即服务’的新架构，它将AI模型的推理过程和解释生成过程分开处理，通过缓存、验证和自适应选择解释方法等技术，显著降低了边缘AI系统生成解释的延迟和计算开销，使其能够高效、透明地运行在资源受限的物联网设备上。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.18890

arXiv 提交日期: 2025-11-24

llm model training systems small language models latency optimization model architecture efficient attention evolutionary search

Nemotron-Flash：迈向延迟最优的混合小型语言模型 / Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为Nemotron-Flash的新型混合小型语言模型，它通过优化模型深度与宽度的比例、选择高效的运算模块以及改进训练方法，在保证精度的同时，显著降低了模型在实际设备上的运行延迟并提高了处理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.02358

arXiv 提交日期: 2025-11-04

multi-modal llm model training query augmentation multimodal embedding adaptive learning latency optimization mllm

通过自适应查询增强让多模态嵌入器学习何时增强查询 / Let Multimodal Embedders Learn When to Augment Query via Adaptive Query Augmentation

1️⃣ 一句话总结

这篇论文提出了一种名为M-Solomon的多模态嵌入器，它能够智能地判断何时需要对查询进行信息补充，从而在提升检索效果的同时显著减少处理延迟，避免了以往方法对所有查询都进行增强导致的效率问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14211

arXiv 提交日期: 2025-10-16

llm model training model evaluation layer skipping multi-stage reasoning latency optimization early exit efficiency

LiteStage：面向多阶段推理的延迟感知层跳过方法 / LiteStage: Latency-aware Layer Skipping for Multi-stage Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为LiteStage的智能加速方法，通过动态跳过语言模型的部分计算层和提前终止冗余输出生成，在保证推理准确性的同时显著提升了多阶段问题解答的速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.13161

arXiv 提交日期: 2025-10-15

llm systems model training speculative decoding parallel inference heterogeneous acceleration latency optimization autoregressive generation

镜像推测解码：打破大语言模型推理中的串行瓶颈 / Mirror Speculative Decoding: Breaking the Serial Barrier in LLM Inference

1️⃣ 一句话总结

本文提出了一种名为镜像推测解码的新算法，通过并行异构计算和多令牌推测流技术，在大幅降低大语言模型推理延迟的同时保持高准确率，实现了比现有方法更优的加速效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.11530

1️⃣ 一句话总结

arXiv ID: 2602.07958

1️⃣ 一句话总结

arXiv ID: 2602.04120

1️⃣ 一句话总结

arXiv ID: 2511.18890

1️⃣ 一句话总结

arXiv ID: 2511.02358

1️⃣ 一句话总结

arXiv ID: 2510.14211

1️⃣ 一句话总结

arXiv ID: 2510.13161

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.11530 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.07958 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04120 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.18890 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.02358 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14211 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.13161 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.11530

arXiv ID: 2602.07958

arXiv ID: 2602.04120

arXiv ID: 2511.18890

arXiv ID: 2511.02358

arXiv ID: 2510.14211

arXiv ID: 2510.13161