arXiv最新AI论文速览速学

🔍

标签: #model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 88 72小时内新更新论文 72h更新 188 最新: Omni IIE Bench: Benchmarking the Practical Capabilities of Image Editing Models 03-21

arXiv ID: 2602.17530

arXiv 提交日期: 2026-02-19

machine learning theory model evaluation explainable ai neural additive models provable guarantees feature attribution model verification

可证明解释神经加法模型 / Provably Explaining Neural Additive Models

1️⃣ 一句话总结

这篇论文提出了一种高效的新算法，能够为‘神经加法模型’这种更易理解的神经网络，快速找到并证明一个最小、最关键的输入特征子集，从而可靠地解释模型的预测结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17664

arXiv 提交日期: 2026-02-19

natural language processing model training model evaluation diffusion language models attention sinks model pruning efficient inference transient attention

面向扩散语言模型的汇点感知剪枝 / Sink-Aware Pruning for Diffusion Language Models

1️⃣ 一句话总结

这篇论文发现扩散语言模型中的注意力汇点并不稳定，并据此提出了一种能自动识别并剪除这些不稳定汇点的新方法，从而在不重新训练模型的情况下，显著提升了模型推理效率与性能的平衡。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17048

arXiv 提交日期: 2026-02-19

computer vision model evaluation machine learning anomaly detection unsupervised learning image scoring structural descriptor mahalanobis calibration

StructCore：用于免训练无监督异常检测的结构感知图像级评分方法 / StructCore: Structure-Aware Image-Level Scoring for Training-Free Unsupervised Anomaly Detection

1️⃣ 一句话总结

这篇论文提出了一种名为StructCore的新方法，它通过分析异常得分图的结构和分布特征来改进图像级的异常检测，避免了传统最大池化方法因只关注单个极端值而丢失关键信息的缺陷，在多个数据集上取得了更准确的结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17101

arXiv 提交日期: 2026-02-19

robotics computer vision model evaluation object pose estimation 3d reconstruction robotic grasping benchmark physics simulation

评估物体姿态估计与三维重建对机器人抓取成功率影响的基准研究 / Benchmarking the Effects of Object Pose Estimation and Reconstruction on Robotic Grasping Success

1️⃣ 一句话总结

这篇论文通过建立一个大规模、基于物理的基准测试，发现虽然三维重建的几何误差会减少可用的抓取候选姿态，但只要物体姿态估计准确，它对实际机器人抓取成功率的影响微乎其微，并揭示了姿态误差中空间平移误差是影响抓取成功的关键因素。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17535

arXiv 提交日期: 2026-02-19

medical multi-modal model evaluation conformal prediction domain adaptation uncertainty quantification vision-language models transductive learning

LATA：用于医学视觉语言模型置信度预测的拉普拉斯辅助直推式适应方法 / LATA: Laplacian-Assisted Transductive Adaptation for Conformal Uncertainty in Medical VLMs

1️⃣ 一句话总结

本文提出了一种名为LATA的新方法，它能在不重新训练模型、也几乎不需要额外标注的情况下，有效提升医学视觉语言模型在陌生数据上预测结果的可信度，使其预测更准确、更稳定。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17608

arXiv 提交日期: 2026-02-19

llm theory model evaluation statistical watermarking anytime-valid inference e-values hypothesis testing detection efficiency

迈向任意时间有效的统计水印 / Towards Anytime-Valid Statistical Watermarking

1️⃣ 一句话总结

这篇论文提出了一种名为‘锚定E-水印’的新方法，它首次将最优采样与任意时间有效的推理结合起来，使得在大语言模型生成的文本中嵌入和检测水印时，可以在任意时刻停止检测并保持统计有效性，从而将检测所需的平均文本量减少了13-15%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17594

arXiv 提交日期: 2026-02-19

benchmark model evaluation agents general game playing evaluation platform vision-language models human-like intelligence scalable testing

AI游戏商店：通过人类游戏对机器通用智能进行可扩展、开放式的评估 / AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

1️⃣ 一句话总结

这篇论文提出了一个名为‘AI游戏商店’的新评估平台，通过让AI系统学习和游玩大量由人类设计、为人类设计的游戏，来更全面、动态地衡量其是否具备接近人类的通用智能，初步测试表明当前顶尖模型在大多数游戏上的表现远不及人类平均水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17623

arXiv 提交日期: 2026-02-19

llm model evaluation natural language processing cultural reasoning benchmark multilingual evaluation social norms factual-conceptual gap

揭示波斯语语言模型中事实与概念的差距 / Unmasking the Factual-Conceptual Gap in Persian Language Models

1️⃣ 一句话总结

这篇论文通过引入一个名为DivanBench的新评测基准，专门测试波斯语大语言模型对迷信和习俗等复杂社会规范的理解，发现这些模型虽然能记住文化事实，却难以在实际情境中进行推理，暴露出严重的‘附和偏见’和事实应用能力不足的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17445

arXiv 提交日期: 2026-02-19

llm model evaluation benchmark multiple-choice evaluation position bias bias reduction robustness synthetic benchmark

ABCD：所有偏见皆伪装而来 / ABCD: All Biases Come Disguised

1️⃣ 一句话总结

这篇论文发现大型语言模型在回答选择题时，会受到答案位置、选项标签和示例分布等表面线索的干扰，并提出了一种通过统一标签和答案整体匹配来减少评估偏差的简单方法，从而更真实地衡量模型的实际能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17483

arXiv 提交日期: 2026-02-19

llm natural language processing data privacy audit personal data model evaluation human-centered black-box audit

大语言模型将什么信息与你的名字关联？一项以人为中心的个人数据黑盒审计 / What Do LLMs Associate with Your Name? A Human-Centered Black-Box Audit of Personal Data

1️⃣ 一句话总结

这篇论文通过开发一个名为LMP2的隐私保护审计工具，实证研究发现大语言模型（如GPT-4o）能高准确度地从人名推断出多种个人特征（如性别、发色），并揭示了大多数用户希望对模型生成的此类关联进行控制，从而引发了对个人数据定义及隐私权是否应延伸至大语言模型的新讨论。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.17530

1️⃣ 一句话总结

arXiv ID: 2602.17664

1️⃣ 一句话总结

arXiv ID: 2602.17048

1️⃣ 一句话总结

arXiv ID: 2602.17101

1️⃣ 一句话总结

arXiv ID: 2602.17535

1️⃣ 一句话总结

arXiv ID: 2602.17608

1️⃣ 一句话总结

arXiv ID: 2602.17594

1️⃣ 一句话总结

arXiv ID: 2602.17623

1️⃣ 一句话总结

arXiv ID: 2602.17445

1️⃣ 一句话总结

arXiv ID: 2602.17483

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.17530 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17664 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17048 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17101 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17535 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17608 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17594 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17623 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17445 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17483 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.17530

arXiv ID: 2602.17664

arXiv ID: 2602.17048

arXiv ID: 2602.17101

arXiv ID: 2602.17535

arXiv ID: 2602.17608

arXiv ID: 2602.17594

arXiv ID: 2602.17623

arXiv ID: 2602.17445

arXiv ID: 2602.17483