arXiv ID:
2605.05175
arXiv 提交日期: 2026-05-06
MRI-Eval:用于评估大语言模型在磁共振物理和GE扫描仪操作知识上的分层基准 / MRI-Eval: A Tiered Benchmark for Evaluating LLM Performance on MRI Physics and GE Scanner Operations Knowledge
1️⃣ 一句话总结
该研究开发了一个包含三个难度等级、1365道题目的分层基准测试MRI-Eval,用于评估大语言模型在MRI物理和GE扫描仪操作知识上的表现,结果发现虽然模型在选择题上准确率很高(超过93%),但在无选项自由回答和面对错误用户假设时表现大幅下降,特别是对厂商特定的操作知识理解薄弱,因此该基准更适合用于模型间的相对比较而非绝对能力衡量。