arXiv最新AI论文速览速学

🔍

benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: Panoramic Affordance Prediction 03-17

arXiv ID: 2603.04356

arXiv 提交日期: 2026-03-04

robotics benchmark systems simulation framework household manipulation generalist robots multi-task learning robot foundation models

RoboCasa365：用于训练和评估通用机器人的大规模仿真框架 / RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots

1️⃣ 一句话总结

这篇论文提出了一个名为RoboCasa365的大规模机器人仿真基准，它包含365种日常家务任务和数千个多样化厨房场景，旨在系统性地评估和训练能在家庭环境中完成多种任务的通用型机器人，并通过实验揭示了影响其性能的关键因素。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02541

arXiv 提交日期: 2026-03-03

computer vision data benchmark person detection search and rescue under-canopy imagery dataset occlusion analysis

ForestPersons：一个用于林冠下失踪人员检测的大规模数据集 / ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection

1️⃣ 一句话总结

这篇论文为了解决无人机在林区搜救时因树冠遮挡而难以发现失踪人员的问题，创建并公开了一个名为ForestPersons的大规模数据集，专门用于训练和评估能在林冠下复杂环境中有效检测人员的算法模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03002

arXiv 提交日期: 2026-03-03

llm model evaluation benchmark spatial reasoning cognitive benchmark mental models evaluation framework text-only evaluation

SpatialText：一个用于评估大语言模型空间理解能力的纯文本认知基准 / SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为SpatialText的纯文本基准测试，通过分析大语言模型在空间推理任务中的系统性错误，发现它们主要依赖语言关联而非构建真正的内部空间心理模型，从而揭示了当前模型在空间认知上的根本局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02663

arXiv 提交日期: 2026-03-03

multi-modal model evaluation benchmark item response theory cross-modal reasoning evaluation framework vision-language models benchmark quality

利用多模态项目反应理论评估跨模态推理能力与问题特性 / Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

1️⃣ 一句话总结

本文提出了一种名为M3IRT的多模态项目反应理论框架，它能有效区分并筛选出真正需要跨模态推理的高质量测试问题，从而以更低的评估成本更可靠地衡量多模态大模型的综合理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03252

arXiv 提交日期: 2026-03-03

agents benchmark systems imperfect-information games card games evaluation game description language monte carlo tree search

Valet：一个标准化的传统不完美信息纸牌游戏测试平台 / Valet: A Standardized Testbed of Traditional Imperfect-Information Card Games

1️⃣ 一句话总结

这篇论文提出了一个名为Valet的标准化测试平台，它包含了21种多样化的传统纸牌游戏，旨在帮助研究人员更公平、全面地评估和比较不同AI算法在不完美信息游戏中的表现和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03230

arXiv 提交日期: 2026-03-03

benchmark systems machine learning vehicle routing instance generation feasibility screening optimization electric vehicles

SynthCharge：一种具备可行性筛选功能的电动汽车路径规划实例生成器，用于支持基于学习的优化与基准测试 / SynthCharge: An Electric Vehicle Routing Instance Generator with Feasibility Screening to Enable Learning-Based Optimization and Benchmarking

1️⃣ 一句话总结

这篇论文提出了一个名为SynthCharge的智能生成器，它能自动创建多样化且经过可行性验证的电动汽车配送路径规划问题实例，为评估和比较基于人工智能的路径优化算法提供了一个动态、可靠的测试平台。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03066

arXiv 提交日期: 2026-03-03

video generation aigc benchmark video quality assessment educational videos text-to-video dataset multi-dimensional evaluation

EduVQA：面向教育领域的AI生成视频质量评估基准 / EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

1️⃣ 一句话总结

这篇论文提出了首个用于评估教育类AI生成视频质量的基准数据集和评估框架，并通过一个创新的模型来同时衡量视频的视觉逼真度和内容与教学提示的匹配程度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02985

arXiv 提交日期: 2026-03-03

medical computer vision benchmark 4d reconstruction surgical scene non-rigid slam depth estimation dataset

用于非刚性腹部手术场景4D重建的德累斯顿数据集 / The Dresden Dataset for 4D Reconstruction of Non-Rigid Abdominal Surgical Scenes

1️⃣ 一句话总结

这篇论文介绍了一个名为D4D的公开数据集，它通过提供配对的腹腔镜手术视频和高质量三维几何数据，为评估在真实手术条件下对动态软组织的三维重建算法建立了一个全面的基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02775

arXiv 提交日期: 2026-03-03

llm benchmark model evaluation mathematical tutoring pedagogical evaluation multi-turn dialogue fine-tuning educational ai

从解题者到辅导者：使用KMP-Bench评估大语言模型的教学智能 / From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

1️⃣ 一句话总结

这篇论文提出了一个名为KMP-Bench的综合性评估基准，专门用于测试大语言模型在K-8年级数学辅导中的教学能力，发现当前模型虽然擅长解题，但在遵循教学原则（如引导、解释、反馈）方面仍有不足，并证明使用高质量教学对话数据训练可以显著提升模型的辅导效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02097

arXiv 提交日期: 2026-03-02

llm medical benchmark medical evaluation clinical workflow expert consensus chinese language model assessment

ClinConsensus：一个基于专家共识、分难度评估中文医疗大语言模型的基准 / ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

1️⃣ 一句话总结

这篇论文提出了一个由临床专家构建的中文医疗大模型评估基准，它通过覆盖诊疗全流程、多难度等级的开放式案例，并结合创新的评分方法，揭示了当前模型在临床推理和实际应用中的关键短板。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.04356

1️⃣ 一句话总结

arXiv ID: 2603.02541

1️⃣ 一句话总结

arXiv ID: 2603.03002

1️⃣ 一句话总结

arXiv ID: 2603.02663

1️⃣ 一句话总结

arXiv ID: 2603.03252

1️⃣ 一句话总结

arXiv ID: 2603.03230

1️⃣ 一句话总结

arXiv ID: 2603.03066

1️⃣ 一句话总结

arXiv ID: 2603.02985

1️⃣ 一句话总结

arXiv ID: 2603.02775

1️⃣ 一句话总结

arXiv ID: 2603.02097

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.04356 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02541 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03002 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02663 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03252 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03230 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03066 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02985 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02775 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02097 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.04356

arXiv ID: 2603.02541

arXiv ID: 2603.03002

arXiv ID: 2603.02663

arXiv ID: 2603.03252

arXiv ID: 2603.03230

arXiv ID: 2603.03066

arXiv ID: 2603.02985

arXiv ID: 2603.02775

arXiv ID: 2603.02097