arXiv最新AI论文速览速学

🔍

标签: #item response theory ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 56 72小时内新更新论文 72h更新 56 最新: Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory 03-04

arXiv ID: 2603.02663

arXiv 提交日期: 2026-03-03

multi-modal model evaluation benchmark item response theory cross-modal reasoning evaluation framework vision-language models benchmark quality

利用多模态项目反应理论评估跨模态推理能力与问题特性 / Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

1️⃣ 一句话总结

本文提出了一种名为M3IRT的多模态项目反应理论框架，它能有效区分并筛选出真正需要跨模态推理的高质量测试问题，从而以更低的评估成本更可靠地衡量多模态大模型的综合理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22585

arXiv 提交日期: 2026-02-26

model evaluation machine learning natural language processing item response theory human evaluation rater effects psychometric modeling data correction

基于项目反应理论校正AI评估中的人类评分者效应 / Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach

1️⃣ 一句话总结

这篇论文提出使用心理测量学中的项目反应理论（特别是多面Rasch模型）来分析和校正AI评估中人类评分者的系统性偏差（如评分严格度或趋中性），从而获得更可靠、更真实的AI模型性能估计，并以摘要任务为例展示了该方法的应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.18880

arXiv 提交日期: 2025-12-21

llm model evaluation natural language processing difficulty prediction human-ai alignment educational assessment metacognition item response theory

大型语言模型在预测题目难度时与人类认知困难的对齐问题 / Can LLMs Estimate Student Struggles? Human-AI Difficulty Alignment with Proficiency Simulation for Item Difficulty Prediction

1️⃣ 一句话总结

本研究通过大规模实证分析发现，大型语言模型在预测题目难度时与人类真实感知存在系统性错位，模型倾向于收敛于一种“机器共识”而非对齐人类认知，其强大的问题解决能力反而可能阻碍准确的难度估计，并揭示了模型在元认知和模拟特定熟练度学生方面的根本性局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.21692

arXiv 提交日期: 2025-11-26

llm model training model evaluation generalization difficulty levels item response theory data curation evaluation

重新审视跨难度级别的泛化：这并不简单 / Revisiting Generalization Across Difficulty Levels: It's Not So Easy

1️⃣ 一句话总结

这项研究发现，大型语言模型在跨越不同难度任务时的泛化能力有限，无论是用简单还是困难的数据训练，都无法在所有难度级别上取得一致性的提升，强调了训练和评估数据中难度多样性的重要性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.02663

1️⃣ 一句话总结

arXiv ID: 2602.22585

1️⃣ 一句话总结

arXiv ID: 2512.18880

1️⃣ 一句话总结

arXiv ID: 2511.21692

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.02663 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22585 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.18880 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.21692 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.02663

arXiv ID: 2602.22585

arXiv ID: 2512.18880

arXiv ID: 2511.21692