arXiv ID:
2603.04033
谁来评判裁判?评估大语言模型作为法语医学开放式问答的评判者 / Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA
1️⃣ 一句话总结
这项研究评估了用大语言模型自动评判法语医学开放式问答答案的可行性,发现评判结果受生成答案的模型影响很大,但通过针对性的轻量级训练,即使是小模型也能在资源有限的医学领域实现高效、可靠的自动评估。