arXiv ID:
2603.02908
SAE作为水晶球:无需训练,利用可解释特征预测大语言模型的跨领域可迁移性 / SAE as a Crystal Ball: Interpretable Features Predict Cross-domain Transferability of LLMs without Training
1️⃣ 一句话总结
这篇论文提出了一种名为STS的新方法,它利用稀疏自编码器分析大语言模型内部特征的变化,能够在模型进行下游任务微调之前,就准确预测其在不同领域应用中的表现好坏,为模型优化提供了可解释的指导工具。