🤖 系统
11-30 17:39
📄 论文总结
FinAuditing:一种基于财务分类结构的多文档基准,用于评估大语言模型 / FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs
1️⃣ 一句话总结
这篇论文提出了首个针对财务审计任务的结构化多文档评估基准FinAuditing,通过测试13种主流大语言模型发现,它们在处理具有层次结构的财务数据时,准确性会大幅下降,揭示了现有模型在结构化财务推理方面的系统性不足。