🤖 系统
11-30 17:28
📄 论文总结
基于基准测试的大语言模型评估的鲁棒性与可靠性研究 / On Robustness and Reliability of Benchmark-Based Evaluation of LLMs
1️⃣ 一句话总结
这篇论文通过系统测试发现,尽管大语言模型在基准测试中的排名相对稳定,但面对同一问题的不同表述时,其绝对性能会显著下降,这表明当前基于固定格式基准测试的评估方法可能无法准确反映模型在真实多变场景下的实际能力。