arXiv ID:
2601.06747
arXiv 提交日期: 2026-01-11
FinForge:半合成金融基准测试生成 / FinForge: Semi-Synthetic Financial Benchmark Generation
1️⃣ 一句话总结
这篇论文提出了一个名为FinForge的半自动化框架,它通过结合专家知识和AI生成技术,创建了一个高质量、大规模的金融领域测试集,用于更准确地评估语言模型在需要专业知识和严谨计算的金融推理任务上的真实能力。