arXiv ID:
2604.12891
arXiv 提交日期: 2026-04-14
TCL:通过持续学习实现跨硬件快速高效的张量程序优化 / TCL: Enabling Fast and Efficient Cross-Hardware Tensor Program Optimization via Continual Learning
1️⃣ 一句话总结
这篇论文提出了一个名为TCL的深度学习编译器框架,它通过一种高效的主动学习采样器、一个轻量级的新型成本预测模型以及一个持续知识蒸馏机制,显著降低了为不同硬件平台优化张量程序所需的数据收集成本和调优时间,同时提升了程序运行性能。