arXiv ID:
2601.02314
arXiv 提交日期: 2026-01-05
阿里阿德涅项目:一个用于审计LLM智能体忠实度的结构因果框架 / Project Ariadne: A Structural Causal Framework for Auditing Faithfulness in LLM Agents
1️⃣ 一句话总结
这篇论文提出了一个名为‘阿里阿德涅项目’的新框架,它通过结构因果模型和反事实推理来检测大型语言模型智能体给出的推理过程是否真实驱动了其决策,结果发现模型常常‘说一套做一套’,其解释可能只是事后的合理化而非真实的决策依据。