arXiv ID:
2604.25359
arXiv 提交日期: 2026-04-28
结构化输出基准:用于评估大语言模型结构化输出质量的多源基准 / The Structured Output Benchmark: A Multi-Source Benchmark for Evaluating Structured Output Quality in Large Language Models
1️⃣ 一句话总结
本文提出了一个名为SOB的多源基准测试,通过文本、图像和音频三种输入来源,全面评估大语言模型生成结构化数据(如从发票、病历中提取信息)的能力,结果显示虽然模型在遵循JSON格式上表现很好,但在精确值匹配上,尤其是音频和图像任务中,准确率仍然较低,表明结构化输出能力仍有显著提升空间。