arXiv ID:
2604.24544
arXiv 提交日期: 2026-04-27
STELLAR-E:一个合成、定制、端到端的LLM应用严格评估器 / STELLAR-E: a Synthetic, Tailored, End-to-end LLM Application Rigorous Evaluator
1️⃣ 一句话总结
本文提出了一种全自动系统STELLAR-E,它能在不依赖任何现有数据集的情况下,通过少量人工输入自动生成高质量、可定制规模的合成数据集,用于评估大语言模型在特定领域和语言上的表现,其质量接近真实数据集,且效率远高于人工方法。