arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: Exposing Cross-Modal Consistency for Fake News Detection in Short-Form Videos 03-18

arXiv ID: 2602.18757

arXiv 提交日期: 2026-02-21

benchmark agents systems autonomous driving personalization end-to-end learning driving style evaluation metrics

千人千面驾驶：一个闭环个性化端到端自动驾驶的基准平台 / Driving with A Thousand Faces: A Benchmark for Closed-Loop Personalized End-to-End Autonomous Driving

1️⃣ 一句话总结

这篇论文提出了一个名为Person2Drive的基准平台，旨在解决当前端到端自动驾驶系统缺乏个性化驾驶风格的问题，它通过提供数据收集工具、量化评估指标和个性化算法框架，让自动驾驶系统能像不同的人一样拥有独特的驾驶习惯。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17106

arXiv 提交日期: 2026-02-19

llm data benchmark sustainability rating esg human-ai collaboration dataset construction evaluation framework

迈向可持续性评级方法的可信评估：一个用于基准数据集构建的人机协作框架 / Toward Trustworthy Evaluation of Sustainability Rating Methodologies: A Human-AI Collaborative Framework for Benchmark Dataset Construction

1️⃣ 一句话总结

这篇论文针对当前不同机构给出的企业可持续性（ESG）评分差异巨大、难以比较的问题，提出了一个结合人类专家原则与大型语言模型（LLM）能力的人机协作框架，旨在高效、可扩展地构建可信的基准数据集，从而更可靠地评估和改进各种可持续性评级方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17101

arXiv 提交日期: 2026-02-19

robotics computer vision model evaluation object pose estimation 3d reconstruction robotic grasping benchmark physics simulation

评估物体姿态估计与三维重建对机器人抓取成功率影响的基准研究 / Benchmarking the Effects of Object Pose Estimation and Reconstruction on Robotic Grasping Success

1️⃣ 一句话总结

这篇论文通过建立一个大规模、基于物理的基准测试，发现虽然三维重建的几何误差会减少可用的抓取候选姿态，但只要物体姿态估计准确，它对实际机器人抓取成功率的影响微乎其微，并揭示了姿态误差中空间平移误差是影响抓取成功的关键因素。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17663

arXiv 提交日期: 2026-02-19

natural language processing data benchmark relation extraction multilingual nlp historical texts evaluation digital humanities

CLEF HIPE-2026：从多语言历史文本中评估准确高效的人地关系抽取 / CLEF HIPE-2026: Evaluating Accurate and Efficient Person-Place Relation Extraction from Multilingual Historical Texts

1️⃣ 一句话总结

这篇论文介绍了一个名为HIPE-2026的国际评测任务，旨在开发和评估能够从多语言、有噪声的历史文献中，自动识别出人物与地点之间两种特定关系（曾到访和当时所在地）的技术，并同时考量模型的准确性、计算效率和跨领域泛化能力，以支持数字人文领域的知识图谱构建和历史研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17594

arXiv 提交日期: 2026-02-19

benchmark model evaluation agents general game playing evaluation platform vision-language models human-like intelligence scalable testing

AI游戏商店：通过人类游戏对机器通用智能进行可扩展、开放式的评估 / AI Gamestore: Scalable, Open-Ended Evaluation of Machine General Intelligence with Human Games

1️⃣ 一句话总结

这篇论文提出了一个名为‘AI游戏商店’的新评估平台，通过让AI系统学习和游玩大量由人类设计、为人类设计的游戏，来更全面、动态地衡量其是否具备接近人类的通用智能，初步测试表明当前顶尖模型在大多数游戏上的表现远不及人类平均水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17623

arXiv 提交日期: 2026-02-19

llm model evaluation natural language processing cultural reasoning benchmark multilingual evaluation social norms factual-conceptual gap

揭示波斯语语言模型中事实与概念的差距 / Unmasking the Factual-Conceptual Gap in Persian Language Models

1️⃣ 一句话总结

这篇论文通过引入一个名为DivanBench的新评测基准，专门测试波斯语大语言模型对迷信和习俗等复杂社会规范的理解，发现这些模型虽然能记住文化事实，却难以在实际情境中进行推理，暴露出严重的‘附和偏见’和事实应用能力不足的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17445

arXiv 提交日期: 2026-02-19

llm model evaluation benchmark multiple-choice evaluation position bias bias reduction robustness synthetic benchmark

ABCD：所有偏见皆伪装而来 / ABCD: All Biases Come Disguised

1️⃣ 一句话总结

这篇论文发现大型语言模型在回答选择题时，会受到答案位置、选项标签和示例分布等表面线索的干扰，并提出了一种通过统一标签和答案整体匹配来减少评估偏差的简单方法，从而更真实地衡量模型的实际能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.17531

arXiv 提交日期: 2026-02-19

medical model evaluation benchmark ecg representation learning clinical evaluation benchmarking practices pre-training medical ai

立场：心电图表征的评估方法必须修正 / Position: Evaluation of ECG Representations Must Be Fixed

1️⃣ 一句话总结

这篇立场论文指出，当前心电图表征学习的评估标准过于狭隘，主要局限于心律失常等少数标签，忽略了心电图所蕴含的广泛临床信息，并建议将评估范围扩展到结构性心脏病和患者预后预测等更实际的临床目标，同时提出使用随机编码器作为合理的性能基线。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16233

arXiv 提交日期: 2026-02-18

systems model training machine learning quantum neural networks circuit cutting distributed training benchmark systems overhead

分布式估计器：通过电路切割实现量子神经网络的分布式训练 / DistributedEstimator: Distributed Training of Quantum Neural Networks via Circuit Cutting

1️⃣ 一句话总结

这篇论文提出了一种将大型量子电路切割成多个小电路进行分布式训练的新方法，并通过实验发现，虽然该方法能保持模型精度，但重建小电路结果的计算开销很大，是限制其性能提升的主要瓶颈。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.16639

arXiv 提交日期: 2026-02-18

llm benchmark agents adversarial interaction social intelligence persuasion resistance evaluation framework

AREG：用于评估大语言模型说服与抵抗能力的对抗性资源提取博弈 / AREG: Adversarial Resource Extraction Game for Evaluating Persuasion and Resistance in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为AREG的对抗性谈判游戏基准，用于同时评估大语言模型的说服力和抵抗力，发现这两种能力关联性弱且模型普遍更擅长防守，表明仅评估说服力会忽略其行为中的不对称弱点。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.18757

1️⃣ 一句话总结

arXiv ID: 2602.17106

1️⃣ 一句话总结

arXiv ID: 2602.17101

1️⃣ 一句话总结

arXiv ID: 2602.17663

1️⃣ 一句话总结

arXiv ID: 2602.17594

1️⃣ 一句话总结

arXiv ID: 2602.17623

1️⃣ 一句话总结

arXiv ID: 2602.17445

1️⃣ 一句话总结

arXiv ID: 2602.17531

1️⃣ 一句话总结

arXiv ID: 2602.16233

1️⃣ 一句话总结

arXiv ID: 2602.16639

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.18757 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17106 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17101 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17663 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17594 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17623 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17445 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.17531 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16233 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.16639 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.18757

arXiv ID: 2602.17106

arXiv ID: 2602.17101

arXiv ID: 2602.17663

arXiv ID: 2602.17594

arXiv ID: 2602.17623

arXiv ID: 2602.17445

arXiv ID: 2602.17531

arXiv ID: 2602.16233

arXiv ID: 2602.16639