arXiv ID:
2601.10700
arXiv 提交日期: 2026-01-15
LIBERTy:一个基于结构反事实的LLM概念解释评估因果框架 / LIBERTy: A Causal Framework for Benchmarking Concept-Based Explanations of LLMs with Structural Counterfactuals
1️⃣ 一句话总结
这篇论文提出了一个名为LIBERTy的新框架,它通过构建基于明确因果模型的结构化反事实数据集,来系统评估大语言模型中概念解释方法的可靠性和有效性,发现现有方法仍有很大改进空间,并且商业大模型对某些人口统计概念的敏感性因后期调整而降低。