arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: xplainfi: Feature Importance and Statistical Inference for Machine Learning in R 03-17

arXiv ID: 2603.15306

arXiv 提交日期: 2026-03-16

machine learning model evaluation data feature importance statistical inference r package model interpretation conditional sampling

xplainfi：R语言中机器学习特征重要性与统计推断工具包 / xplainfi: Feature Importance and Statistical Inference for Machine Learning in R

1️⃣ 一句话总结

这篇论文介绍了一个名为xplainfi的R软件包，它为机器学习模型提供了一套全面的、基于损失的特征重要性分析工具，特别填补了条件重要性方法和统计推断方面的空白，帮助研究者和实践者更好地理解和解释模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15582

arXiv 提交日期: 2026-03-16

machine learning computer vision model evaluation 4d-stem ferroelectrics polarization mapping convolutional neural networks domain gap

利用4D-STEM进行铁电体极化映射的机器学习方法基准测试 / Benchmarking Machine Learning Approaches for Polarization Mapping in Ferroelectrics Using 4D-STEM

1️⃣ 一句话总结

这篇论文系统评估了多种机器学习模型从4D-STEM数据中自动识别铁电材料极化方向的能力，发现虽然合成数据训练的模型在理想条件下表现良好，但仿真与实验间的差异仍是实际应用的主要障碍，并指出模型预测错误可能与晶体结构缺陷相关。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15377

arXiv 提交日期: 2026-03-16

llm model evaluation theory beam search overestimation bias extreme value theory signal-to-noise ratio reasoning

更多测试时计算可能有害：大语言模型束搜索中的高估偏差 / More Test-Time Compute Can Hurt: Overestimation Bias in LLM Beam Search

1️⃣ 一句话总结

这篇论文发现，在大型语言模型的推理过程中，盲目增加束搜索的宽度（即考虑更多候选路径）反而可能降低输出质量，其根本原因在于评分器的噪声会导致系统性的高估偏差，而决定最佳搜索宽度的关键因素是评分器输出信号与噪声的比值。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15189

arXiv 提交日期: 2026-03-16

theory machine learning model evaluation dueling bandits best-arm identification sample complexity condorcet winner stochastic bandits

对决赌博机中孔多塞胜者识别的采样复杂度 / The Sampling Complexity of Condorcet Winner Identification in Dueling Bandits

1️⃣ 一句话总结

这篇论文提出了一种新的识别方法，通过利用所有候选选项之间的两两比较信息，而非仅仅关注胜者与其他选项的比较，显著降低了在随机对决赌博机模型中准确找出最优选项所需的最小样本量，并首次给出了该问题的理论最优样本复杂度界限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14947

arXiv 提交日期: 2026-03-16

medical machine learning model evaluation fairness healthcare bias mitigation xgboost explainable ai

FairMed-XGB：一个用于关键医疗数据中人口公平性的、经过贝叶斯优化的多指标可解释框架 / FairMed-XGB: A Bayesian-Optimised Multi-Metric Framework with Explainability for Demographic Equity in Critical Healthcare Data

1️⃣ 一句话总结

这篇论文提出了一个名为FairMed-XGB的新框架，它通过结合多种公平性指标并利用贝叶斯优化技术，在保持高预测精度的同时，显著降低了重症监护机器学习模型中的性别偏见，并且能向医生解释偏见是如何被修正的。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15026

arXiv 提交日期: 2026-03-16

video generation model evaluation multi-modal synthetic video detection zero-shot detection spatial-temporal modeling likelihood scoring training-free detection

基于时空似然性的免训练生成视频检测方法 / Training-free Detection of Generated Videos via Spatial-Temporal Likelihoods

1️⃣ 一句话总结

这篇论文提出了一种名为STALL的免训练检测方法，它通过一个概率框架同时分析视频的空间和时间特征来识别AI生成的假视频，无需依赖特定生成器的数据就能有效应对新型模型，在多个测试中表现优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14916

arXiv 提交日期: 2026-03-16

multi-modal model evaluation model training image editing human preference reward model mllm reinforcement learning

EditHF-1M：一个百万规模、包含丰富人类偏好反馈的图像编辑数据集 / EditHF-1M: A Million-Scale Rich Human Preference Feedback for Image Editing

1️⃣ 一句话总结

这篇论文创建了一个包含百万图像和大量人类偏好评分的大规模数据集EditHF-1M，并基于此训练了一个能评估图像编辑质量的AI模型，该模型不仅能准确判断编辑效果，还能作为奖励信号来帮助其他图像编辑AI模型通过强化学习进行自我优化和提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15475

arXiv 提交日期: 2026-03-16

computer vision model training model evaluation domain adaptation panoramic segmentation open-set learning geometric distortion semantic alignment

超越所见：用于全景分割的外推式域适应方法 / Seeing Beyond: Extrapolative Domain Adaptive Panoramic Segmentation

1️⃣ 一句话总结

本文提出了一种名为EDA-PSeg的新框架，通过创新的角度注意力机制和图匹配适配器，解决了在训练时使用普通视角图像、测试时使用360度全景图像所面临的几何变形和未知类别识别的难题，从而实现了跨域环境下更鲁棒的全景场景理解。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14893

arXiv 提交日期: 2026-03-16

llm model evaluation theory signal detection theory calibration temperature scaling sensitivity bias decomposition model confidence

大语言模型作为信号检测器：敏感性、偏差与温度-判断标准的类比 / LLMs as Signal Detectors: Sensitivity, Bias, and the Temperature-Criterion Analogy

1️⃣ 一句话总结

这篇论文将大语言模型视为信号检测器，运用信号检测理论分析发现，调整模型的“温度”参数会同时改变其区分答案对错的敏感性和判断倾向，这与人类心理物理学的经典理论不完全一致，并揭示了现有评估指标无法区分的模型内在差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15187

arXiv 提交日期: 2026-03-16

llm natural language processing model evaluation dialectal fairness evaluation data scarcity fine-tuning human-llm agreement

AI的探索：如何提升英语方言的公平性 / The Hrunting of AI: Where and How to Improve English Dialectal Fairness

1️⃣ 一句话总结

这篇论文发现，由于使用人数少、数据稀缺，大语言模型在少数英语方言上表现不佳，而且改进起来很困难，因为人类对这些方言的评判标准本身就存在分歧，导致模型难以学习；不过研究也发现，某些模型能生成高质量的方言数据，这为未来的改进提供了可能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15306

1️⃣ 一句话总结

arXiv ID: 2603.15582

1️⃣ 一句话总结

arXiv ID: 2603.15377

1️⃣ 一句话总结

arXiv ID: 2603.15189

1️⃣ 一句话总结

arXiv ID: 2603.14947

1️⃣ 一句话总结

arXiv ID: 2603.15026

1️⃣ 一句话总结

arXiv ID: 2603.14916

1️⃣ 一句话总结

arXiv ID: 2603.15475

1️⃣ 一句话总结

arXiv ID: 2603.14893

1️⃣ 一句话总结

arXiv ID: 2603.15187

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15306 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15582 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15377 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15189 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14947 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15026 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14916 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15475 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14893 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15187 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15306

arXiv ID: 2603.15582

arXiv ID: 2603.15377

arXiv ID: 2603.15189

arXiv ID: 2603.14947

arXiv ID: 2603.15026

arXiv ID: 2603.14916

arXiv ID: 2603.15475

arXiv ID: 2603.14893

arXiv ID: 2603.15187