arXiv ID:
2601.06401
arXiv 提交日期: 2026-01-10
BizFinBench.v2:一个统一的、双模式双语基准,用于专家级金融能力对齐 / BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment
1️⃣ 一句话总结
这篇论文提出了一个名为BizFinBench.v2的新基准测试,它基于真实的中美股市业务数据,旨在更准确地评估大语言模型在复杂、实时的金融业务场景中的实际表现,发现现有模型与金融专家水平仍有较大差距。