arXiv ID:
2601.09142
arXiv 提交日期: 2026-01-14
EvasionBench:通过多模型共识与LLM作为裁判检测金融问答中的规避性回答 / EvasionBench: Detecting Evasive Answers in Financial Q&A via Multi-Model Consensus and LLM-as-Judge
1️⃣ 一句话总结
这篇论文提出了一个名为EvasionBench的大规模数据集和一个创新的多模型标注框架,通过挖掘顶尖AI模型之间的分歧样本来高效训练小型模型,最终训练出的轻量级模型能以极低成本接近顶级大模型的性能,用于准确检测金融问答中企业高管回避问题的回答。