arXiv ID:
2601.06944
arXiv 提交日期: 2026-01-11
SketchJudge:一个用于评估多模态大语言模型对手绘图表进行分级诊断的基准 / SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models
1️⃣ 一句话总结
这篇论文提出了一个名为SketchJudge的新基准测试,专门用于评估多模态大语言模型在诊断和评分学生手绘科学图表(如几何图、流程图)时的能力,结果发现当前最先进的模型在这方面仍远落后于人类水平。