arXiv ID:
2607.02391
arXiv 提交日期: 2026-07-02
WattGPU:在未见过的GPU和大语言模型上预测推理功耗与延迟 / WattGPU: Predicting Inference Power and Latency on Unseen GPUs and LLMs
1️⃣ 一句话总结
本文提出了WattGPU,一种仅利用公开的GPU规格和LLM元数据,无需硬件实测即可预测不同大模型在不同GPU上运行时的功耗和延迟的方法,其预测精度显著优于传统基于功耗和带宽的物理模型。