arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 184 72小时内新更新论文 72h更新 239 最新: HalDec-Bench: Benchmarking Hallucination Detector in Image Captioning 03-18

arXiv ID: 2603.10400

arXiv 提交日期: 2026-03-11

llm systems model evaluation service systems sequential decision biased evaluation human-in-the-loop confidence sequences

基于文本证据的服务系统设计 / Designing Service Systems from Textual Evidence

1️⃣ 一句话总结

这篇论文提出了一种新算法，能够利用廉价但有偏见的大语言模型自动评分，结合少量精准但昂贵的人工审核，高效且可靠地找出最佳服务系统配置，从而大幅降低评估成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10477

arXiv 提交日期: 2026-03-11

llm model evaluation natural language processing prompt engineering evaluation metrics interpretability benchmarking automated evaluation

PEEM：用于提示与回答可解释联合评估的提示工程评估指标 / PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses

1️⃣ 一句话总结

这篇论文提出了一个名为PEEM的评估框架，它通过一套包含9个维度的结构化标准（如提示的清晰度、公平性，回答的准确性、连贯性等），并借助大语言模型自动给出评分和解释性理由，从而能系统地诊断和优化用户与大语言模型的交互过程，而不仅仅是判断答案对错。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10990

arXiv 提交日期: 2026-03-11

computer vision model evaluation aigc color fidelity text-to-image image generation evaluation metric realism calibration

过于鲜艳而不真实？生成式色彩保真度的基准测试与校准 / Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

1️⃣ 一句话总结

这篇论文针对当前文本生成图像模型在生成写实风格图片时颜色过于鲜艳失真的问题，提出了一个包含数据集、评估指标和优化方法的完整框架，旨在客观评估并提升生成图像的色彩真实感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10521

arXiv 提交日期: 2026-03-11

llm model training model evaluation instruction hierarchy safety robustness reinforcement learning adversarial training

IH挑战：一个用于提升前沿大语言模型指令层级能力的训练数据集 / IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为IH-Challenge的训练数据集，专门用来训练大语言模型学会在接收到相互冲突的指令时，能按照预设的优先级（如系统指令高于用户指令）做出正确响应，从而有效抵御恶意攻击并提升模型的安全性，实验表明使用该数据集训练能显著提升模型在这方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10731

arXiv 提交日期: 2026-03-11

model evaluation machine learning theory uncertainty quantification model calibration conformal prediction monte carlo dropout reliability

超越准确率：卷积神经网络中的可靠性与不确定性估计 / Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

1️⃣ 一句话总结

这篇论文通过比较两种不确定性估计方法，指出在评估深度学习模型时，除了关注预测准确率，还必须重视模型预测的可靠性和校准程度，这对于高风险决策至关重要。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10578

arXiv 提交日期: 2026-03-11

computer vision multi-modal model evaluation vision-language models image quality assessment retrieval-augmented generation computer graphics benchmark

R4-CGQA：基于检索的视觉语言模型用于计算机图形图像质量评估 / R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

1️⃣ 一句话总结

这项研究通过构建一个包含详细质量描述的计算机图形图像数据集，并设计一种基于检索增强的两阶段框架，显著提升了现有视觉语言模型在评估计算机图形图像细粒度质量方面的准确性和解释能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10287

arXiv 提交日期: 2026-03-11

llm model evaluation data llm-as-a-judge tensor clustering evaluation bias multiway clustering score analysis

MultiwayPAM：用于LLM-as-a-Judge评分分析的多向围绕中心点划分方法 / MultiwayPAM: Multiway Partitioning Around Medoids for LLM-as-a-Judge Score Analysis

1️⃣ 一句话总结

本文提出了一种名为MultiwayPAM的张量聚类新方法，用于高效分析LLM作为评分员时产生的多维度评分数据，从而揭示评分偏差的结构并降低计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10493

arXiv 提交日期: 2026-03-11

machine learning theory model evaluation intrinsic dimensionality nearest neighbor dimensionality estimation nonparametric estimation convergence analysis

一种通用的内在维度最近邻估计器 / A Universal Nearest-Neighbor Estimator for Intrinsic Dimensionality

1️⃣ 一句话总结

这篇论文提出了一种基于最近邻距离比率的全新方法，能够简单高效且无需依赖数据分布假设地准确估计出高维数据的真实内在维度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10658

arXiv 提交日期: 2026-03-11

computer vision model evaluation machine learning earth observation foundation models embedding evaluation feature extraction geospatial analysis

如何嵌入至关重要：对地球观测嵌入设计选择的评估 / How To Embed Matters: Evaluation of EO Embedding Design Choices

1️⃣ 一句话总结

这篇论文通过系统性的实验分析，揭示了在地球观测任务中使用大型地理空间基础模型作为特征提取器时，不同的嵌入设计选择（如模型架构、预训练策略和特征聚合方式）如何影响下游任务的性能和效率，并提供了优化嵌入设计的最佳实践。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10680

arXiv 提交日期: 2026-03-11

systems multi-modal model evaluation digital human modelling multimodal sensing platform-agnostic framework neurophysiological data interaction modelling

一个平台无关的多模态数字人建模框架：基于游戏交互的神经生理传感 / A Platform-Agnostic Multimodal Digital Human Modelling Framework: Neurophysiological Sensing in Game-Based Interaction

1️⃣ 一句话总结

这篇论文提出了一个平台无关的多模态数字人建模框架，通过整合多种生理传感器和游戏化交互环境，为未来符合伦理、可复现的AI人机交互研究提供了一个标准化的数据采集与分析基础设施。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.10400

1️⃣ 一句话总结

arXiv ID: 2603.10477

1️⃣ 一句话总结

arXiv ID: 2603.10990

1️⃣ 一句话总结

arXiv ID: 2603.10521

1️⃣ 一句话总结

arXiv ID: 2603.10731

1️⃣ 一句话总结

arXiv ID: 2603.10578

1️⃣ 一句话总结

arXiv ID: 2603.10287

1️⃣ 一句话总结

arXiv ID: 2603.10493

1️⃣ 一句话总结

arXiv ID: 2603.10658

1️⃣ 一句话总结

arXiv ID: 2603.10680

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.10400 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10477 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10521 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10731 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10578 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10287 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10493 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10658 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10680 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.10400

arXiv ID: 2603.10477

arXiv ID: 2603.10990

arXiv ID: 2603.10521

arXiv ID: 2603.10731

arXiv ID: 2603.10578

arXiv ID: 2603.10287

arXiv ID: 2603.10493

arXiv ID: 2603.10658

arXiv ID: 2603.10680