arXiv ID:
2606.23521
arXiv 提交日期: 2026-06-22
Concordia:面向容错大语言模型推理的即时编译持久化内核检查点技术 / Concordia: JIT-Compiled Persistent-Kernel Checkpointing for Fault-Tolerant LLM Inference
1️⃣ 一句话总结
本文提出Concordia系统,通过在GPU上运行一个始终活跃的持久化内核,并利用即时编译技术为不同状态区域(如KV缓存、适配器页面)自动生成增量检查点处理函数,从而在不打断推理流程的情况下快速保存和恢复LLM长期运行状态,解决了GPU故障导致数分钟到数小时工作丢失的问题,且无需修改上层框架代码。