arXiv最新AI论文速览速学

🔍

标签: #model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 270 最新: scicode-lint: Detecting Methodology Bugs in Scientific Python Code with LLM-Generated Patterns 03-19

arXiv ID: 2603.08495

arXiv 提交日期: 2026-03-09

model evaluation machine learning theory uncertainty quantification credal sets decalibration epistemic uncertainty prediction intervals

通过去校准实现高效的置信预测 / Efficient Credal Prediction through Decalibration

1️⃣ 一句话总结

这篇论文提出了一种名为“去校准”的高效方法，能够为机器学习模型（如大型基础模型）快速生成表示认知不确定性的概率区间，从而在保持性能的同时大幅降低计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08291

arXiv 提交日期: 2026-03-09

multi-modal natural language processing model evaluation mathematical reasoning multimodal alignment reasoning verification structured perception evaluation framework

解构多模态数学推理：迈向统一的感知-对齐-推理范式 / Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

1️⃣ 一句话总结

这篇论文系统性地分析了当前多模态数学推理模型在处理图文结合的数学问题时面临的挑战，如误解图表和推理不一致，并提出通过整合结构化感知、显式对齐和可验证推理的统一框架来解决这些问题，为未来研究指明了方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08275

arXiv 提交日期: 2026-03-09

llm model evaluation natural language processing cultural safety knowledge grounding dataset creation model alignment responsible ai

AdaCultureSafe：基于大语言模型文化知识的自适应文化安全 / AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个将文化知识与文化安全相结合的新框架，通过构建高质量数据集和知识引导的响应生成方法，有效提升了大语言模型在尊重不同文化方面的安全性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08317

arXiv 提交日期: 2026-03-09

computer vision model evaluation benchmark action recognition human-ai comparison egocentric vision spatiotemporal analysis robustness evaluation

在空间与时空操作下人机在以自我为中心动作识别中的差异 / Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

1️⃣ 一句话总结

这项研究发现，在识别视频中的动作时，人类主要依赖关键的手-物交互等语义线索，而AI模型则更依赖上下文和中低层视觉特征，导致在图像被裁剪或时间顺序被打乱时，两者的识别表现和策略存在显著差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08281

arXiv 提交日期: 2026-03-09

llm model evaluation natural language processing grant proposal review evaluation framework perturbation analysis expert simulation peer review

基于结构化扰动的LLM资助提案评审能力评估 / Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

1️⃣ 一句话总结

这项研究通过系统性地修改提案内容来测试大语言模型在评审科研资助申请时的能力，发现分章节评审效果最好，但模型普遍擅长检查格式合规性，而难以评估整体质量与清晰度，目前只能作为人工评审的辅助工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08620

arXiv 提交日期: 2026-03-09

video model evaluation benchmark streaming video understanding temporal reasoning answer readiness video question answering timing-aware evaluation

StreamReady：学习在长流式视频中何时回答以及回答什么 / StreamReady: Learning What to Answer and When in Long Streaming Videos

1️⃣ 一句话总结

这篇论文提出了一个名为StreamReady的新框架，它通过一个轻量级的‘准备就绪’机制，让AI模型在观看长视频流时，不仅能判断内容，还能精准把握回答问题的恰当时机，避免过早猜测或过晚回应，从而在多个视频理解任务上取得了更优表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08358

arXiv 提交日期: 2026-03-09

llm natural language processing model evaluation pragmatics presupposition natural language inference diagnostic dataset explainability

语言模型知道Theo有妻子吗？探究附带条件问题 / Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

1️⃣ 一句话总结

这篇论文通过将语用学中一个关于条件句预设的未解难题转化为自然语言推理任务，并构建诊断数据集来测试主流语言模型，发现这些模型虽然总体上能做出与人类相似的判断，但其依据是浅层的模式匹配而非深层的语义或语用推理。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07868

arXiv 提交日期: 2026-03-09

multi-modal model evaluation natural language processing vision-language models visual question answering domain-specific evaluation informativeness metric hospitality ai

Hospitality-VQA：面向决策的视觉语言模型信息性评估 / Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

1️⃣ 一句话总结

这篇论文提出了一个针对酒店和设施图像的视觉问答新框架，通过定义“信息性”来衡量图像和问题对用户决策的帮助程度，并构建了一个专门的评测数据集，发现当前先进的视觉语言模型需要经过特定领域微调才能有效利用关键视觉信息来支持决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07659

arXiv 提交日期: 2026-03-08

multi-modal model evaluation computer vision vision-language models test-time robustness counterfactual reasoning benchmarking language bias

通过自我批判推理框架扩展视觉语言模型的测试时鲁棒性 / Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

1️⃣ 一句话总结

这篇论文提出了一种名为自我批判推理的新框架，通过多轮假设性提问来减少大型视觉语言模型对文字描述的过度依赖和敏感性问题，并引入了一个动态测试标准来更准确地评估不同模型的实际可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07766

arXiv 提交日期: 2026-03-08

llm natural language processing model evaluation sentiment analysis ensemble learning aspect-based regression roberta

QuadAI在SemEval-2026任务3中的工作：结合混合RoBERTa与大语言模型的集成学习方法用于维度方面情感分析 / QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

1️⃣ 一句话总结

这篇论文提出了一种用于维度方面情感分析的新方法，通过将混合RoBERTa模型与大语言模型的预测结果进行集成学习，有效提升了预测的准确性和稳定性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.08495

1️⃣ 一句话总结

arXiv ID: 2603.08291

1️⃣ 一句话总结

arXiv ID: 2603.08275

1️⃣ 一句话总结

arXiv ID: 2603.08317

1️⃣ 一句话总结

arXiv ID: 2603.08281

1️⃣ 一句话总结

arXiv ID: 2603.08620

1️⃣ 一句话总结

arXiv ID: 2603.08358

1️⃣ 一句话总结

arXiv ID: 2603.07868

1️⃣ 一句话总结

arXiv ID: 2603.07659

1️⃣ 一句话总结

arXiv ID: 2603.07766

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.08495 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08291 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08275 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08317 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08281 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08620 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08358 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07868 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07659 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07766 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.08495

arXiv ID: 2603.08291

arXiv ID: 2603.08275

arXiv ID: 2603.08317

arXiv ID: 2603.08281

arXiv ID: 2603.08620

arXiv ID: 2603.08358

arXiv ID: 2603.07868

arXiv ID: 2603.07659

arXiv ID: 2603.07766