arXiv最新AI论文速览速学

🔍

标签: #multiple-choice questions ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 75 72小时内新更新论文 72h更新 75 最新: MRI-Eval: A Tiered Benchmark for Evaluating LLM Performance on MRI Physics and GE Scanner Operations Knowledge 05-10

arXiv ID: 2605.05175

arXiv 提交日期: 2026-05-06

llm medical benchmark mri physics ge scanner operations multiple-choice questions free-text recall

MRI-Eval：用于评估大语言模型在磁共振物理和GE扫描仪操作知识上的分层基准 / MRI-Eval: A Tiered Benchmark for Evaluating LLM Performance on MRI Physics and GE Scanner Operations Knowledge

1️⃣ 一句话总结

该研究开发了一个包含三个难度等级、1365道题目的分层基准测试MRI-Eval，用于评估大语言模型在MRI物理和GE扫描仪操作知识上的表现，结果发现虽然模型在选择题上准确率很高（超过93%），但在无选项自由回答和面对错误用户假设时表现大幅下降，特别是对厂商特定的操作知识理解薄弱，因此该基准更适合用于模型间的相对比较而非绝对能力衡量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23750

arXiv 提交日期: 2026-03-24

llm benchmark natural language processing islamic knowledge evaluation benchmark multiple-choice questions madhab bias multilingual evaluation

IslamicMMLU：评估大语言模型伊斯兰知识能力的基准 / IslamicMMLU: A Benchmark for Evaluating LLMs on Islamic Knowledge

1️⃣ 一句话总结

这篇论文提出了一个名为IslamicMMLU的综合性基准测试，包含超过一万道选择题，用于评估大语言模型在《古兰经》、圣训和伊斯兰法学等核心领域的知识水平，并发现不同模型的表现差异巨大，其中法学部分还能检测出模型对特定学派的偏好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15547

arXiv 提交日期: 2026-03-16

llm natural language processing model evaluation distractor generation educational ai misconception modeling reasoning analysis multiple-choice questions

大型语言模型能否模拟学生的错误推理？一项关于干扰项生成的研究 / Can LLMs Model Incorrect Student Reasoning? A Case Study on Distractor Generation

1️⃣ 一句话总结

这项研究发现，大型语言模型在生成选择题干扰项时，其推理过程与教育科学的最佳实践高度一致，即先得出正确答案，再模拟多种可能的错误概念，最后筛选出合理的干扰项，而提供正确答案作为提示能显著提升其生成质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.00333

arXiv 提交日期: 2025-11-29

llm benchmark natural language processing low-resource languages indic languages multilingual evaluation multiple-choice questions cross-lingual transfer

IndicParam：评估大语言模型在低资源印度语言上的基准 / IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

1️⃣ 一句话总结

该论文提出了一个名为IndicParam的人工标注基准，包含超过1.3万道选择题，用于系统评估大语言模型在11种低资源印度语言上的表现，结果显示即使是顶尖模型在这些语言上的平均准确率也不足50%，揭示了跨语言迁移的局限性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.05175

1️⃣ 一句话总结

arXiv ID: 2603.23750

1️⃣ 一句话总结

arXiv ID: 2603.15547

1️⃣ 一句话总结

arXiv ID: 2512.00333

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.05175 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23750 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15547 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.00333 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.05175

arXiv ID: 2603.23750

arXiv ID: 2603.15547

arXiv ID: 2512.00333