arXiv最新AI论文速览速学

🔍

标签: #inference serving ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 195 最新: PALS: Power-Aware LLM Serving for Mixture-of-Experts Models 05-21

arXiv ID: 2605.21427

arXiv 提交日期: 2026-05-20

llm systems power optimization mixture-of-experts energy efficiency inference serving gpu power cap

面向混合专家模型的功耗感知大语言模型服务系统 / PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

1️⃣ 一句话总结

本文提出了一种名为PALS的功耗感知运行时系统，通过将GPU功率上限作为可调参数，与批次大小等软件配置联合优化，在保证服务吞吐量的前提下将大语言模型推理的能效最高提升26.3%，并显著降低了功耗约束下的服务质量违约率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.28175

arXiv 提交日期: 2026-04-30

systems model evaluation inference serving priority scheduling latency estimation interference modeling gpu scheduling

Strait：感知机器学习推理服务中的优先级与干扰 / Strait: Perceiving Priority and Interference in ML Inference Serving

1️⃣ 一句话总结

本文提出了一种名为Strait的机器学习推理服务系统，它通过预测GPU上的数据传输冲突和内核执行干扰，并据此进行优先级感知的任务调度，从而在高负载下显著减少高优先级推理请求的截止时间违反率，同时兼顾低优先级任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20420

arXiv 提交日期: 2026-04-22

systems model evaluation inference serving performance analysis bentoml scalability latency optimization

可扩展的AI推理：AI模型服务的性能分析与优化 / Scalable AI Inference: Performance Analysis and Optimization of AI Model Serving

1️⃣ 一句话总结

本文研究了如何通过优化BentoML推理系统的运行时、服务配置和部署方式，在真实流量模式下显著提升AI模型服务的处理速度和可扩展性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19157

arXiv 提交日期: 2026-04-21

llm systems model training kv-cache quantization system-aware inference serving compression

SAW-INT4：面向实际大语言模型服务的系统感知4位KV缓存量化 / SAW-INT4: System-Aware 4-Bit KV-Cache Quantization for Real-World LLM Serving

1️⃣ 一句话总结

本文提出了一种系统感知的4位KV缓存量化方法，通过简单的按Token量化和分块对角哈达玛旋转，在不牺牲服务效率的前提下，几乎恢复了朴素INT4量化带来的精度损失，并证明了在实际部署中轻量级方法比复杂方法更有效。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07472

arXiv 提交日期: 2026-04-08

llm systems model evaluation inference serving resource allocation heterogeneous gpus slo constraints mixed-integer programming

快速异构服务：面向SLO约束推理的可扩展混合规模大语言模型分配 / Fast Heterogeneous Serving: Scalable Mixed-Scale LLM Allocation for SLO-Constrained Inference

1️⃣ 一句话总结

这篇论文提出了两种高效的算法，能在满足延迟、准确率和预算等严格约束的前提下，快速地为大语言模型推理服务自动选择和配置不同型号的GPU资源，在保证服务质量的同时大幅降低了计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.21427

1️⃣ 一句话总结

arXiv ID: 2604.28175

1️⃣ 一句话总结

arXiv ID: 2604.20420

1️⃣ 一句话总结

arXiv ID: 2604.19157

1️⃣ 一句话总结

arXiv ID: 2604.07472

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.21427 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.28175 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20420 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19157 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07472 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.21427

arXiv ID: 2604.28175

arXiv ID: 2604.20420

arXiv ID: 2604.19157

arXiv ID: 2604.07472