arXiv ID:
2604.05083
arXiv 提交日期: 2026-04-06
超越LLM作为评判者:用于多语言生成文本评估的确定性指标 / Beyond LLM-as-a-Judge: Deterministic Metrics for Multilingual Generative Text Evaluation
1️⃣ 一句话总结
这篇论文提出了一个名为OmniScore的确定性评估指标家族,它使用小型模型来模拟大型语言模型的评判能力,从而以低成本、高一致性的方式,为多语言文本生成任务提供可靠的多维度自动评分。