arXiv最新AI论文速览速学

🔍

标签: #benchmark ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 200 72小时内新更新论文 72h更新 205 最新: Brain-Inspired Graph Multi-Agent Systems for LLM Reasoning 03-17

arXiv ID: 2603.02663

arXiv 提交日期: 2026-03-03

multi-modal model evaluation benchmark item response theory cross-modal reasoning evaluation framework vision-language models benchmark quality

利用多模态项目反应理论评估跨模态推理能力与问题特性 / Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

1️⃣ 一句话总结

本文提出了一种名为M3IRT的多模态项目反应理论框架，它能有效区分并筛选出真正需要跨模态推理的高质量测试问题，从而以更低的评估成本更可靠地衡量多模态大模型的综合理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03270

arXiv 提交日期: 2026-03-03

systems machine learning model evaluation domain generation algorithm phishing detection mobile security benchmark threat detection

引力陷阱：针对移动设备鱼叉式网络钓鱼的域名生成算法检测方法比较分析 / Gravity Falls: A Comparative Analysis of Domain-Generation Algorithm (DGA) Detection Methods for Mobile Device Spearphishing

1️⃣ 一句话总结

这篇论文通过分析一个名为Gravity Falls的新型短信钓鱼数据集，发现现有的传统和机器学习检测方法在应对不断演变的钓鱼域名生成策略时效果不佳，尤其是在处理字典拼接和主题组合抢注等复杂手法时表现较差，从而强调了开发更具情境感知能力的检测工具的必要性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03252

arXiv 提交日期: 2026-03-03

agents benchmark systems imperfect-information games card games evaluation game description language monte carlo tree search

Valet：一个标准化的传统不完美信息纸牌游戏测试平台 / Valet: A Standardized Testbed of Traditional Imperfect-Information Card Games

1️⃣ 一句话总结

这篇论文提出了一个名为Valet的标准化测试平台，它包含了21种多样化的传统纸牌游戏，旨在帮助研究人员更公平、全面地评估和比较不同AI算法在不完美信息游戏中的表现和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03230

arXiv 提交日期: 2026-03-03

benchmark systems machine learning vehicle routing instance generation feasibility screening optimization electric vehicles

SynthCharge：一种具备可行性筛选功能的电动汽车路径规划实例生成器，用于支持基于学习的优化与基准测试 / SynthCharge: An Electric Vehicle Routing Instance Generator with Feasibility Screening to Enable Learning-Based Optimization and Benchmarking

1️⃣ 一句话总结

这篇论文提出了一个名为SynthCharge的智能生成器，它能自动创建多样化且经过可行性验证的电动汽车配送路径规划问题实例，为评估和比较基于人工智能的路径优化算法提供了一个动态、可靠的测试平台。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03066

arXiv 提交日期: 2026-03-03

video generation aigc benchmark video quality assessment educational videos text-to-video dataset multi-dimensional evaluation

EduVQA：面向教育领域的AI生成视频质量评估基准 / EduVQA: Benchmarking AI-Generated Video Quality Assessment for Education

1️⃣ 一句话总结

这篇论文提出了首个用于评估教育类AI生成视频质量的基准数据集和评估框架，并通过一个创新的模型来同时衡量视频的视觉逼真度和内容与教学提示的匹配程度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02985

arXiv 提交日期: 2026-03-03

medical computer vision benchmark 4d reconstruction surgical scene non-rigid slam depth estimation dataset

用于非刚性腹部手术场景4D重建的德累斯顿数据集 / The Dresden Dataset for 4D Reconstruction of Non-Rigid Abdominal Surgical Scenes

1️⃣ 一句话总结

这篇论文介绍了一个名为D4D的公开数据集，它通过提供配对的腹腔镜手术视频和高质量三维几何数据，为评估在真实手术条件下对动态软组织的三维重建算法建立了一个全面的基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02775

arXiv 提交日期: 2026-03-03

llm benchmark model evaluation mathematical tutoring pedagogical evaluation multi-turn dialogue fine-tuning educational ai

从解题者到辅导者：使用KMP-Bench评估大语言模型的教学智能 / From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

1️⃣ 一句话总结

这篇论文提出了一个名为KMP-Bench的综合性评估基准，专门用于测试大语言模型在K-8年级数学辅导中的教学能力，发现当前模型虽然擅长解题，但在遵循教学原则（如引导、解释、反馈）方面仍有不足，并证明使用高质量教学对话数据训练可以显著提升模型的辅导效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02681

arXiv 提交日期: 2026-03-03

agents multi-modal model training visual generation agentic model end-to-end learning benchmark reinforcement learning

VisionCreator：一个具备理解、思考、规划和创造能力的原生视觉生成智能体模型 / VisionCreator: A Native Visual-Generation Agentic Model with Understanding, Thinking, Planning and Creation

1️⃣ 一句话总结

这篇论文提出了一个名为VisionCreator的新型智能体模型，它通过一个端到端的可学习框架，将理解、思考、规划和创造能力融为一体，能够自主完成复杂的视觉内容创作任务，并且在多项测试中表现优于更大的闭源模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02626

arXiv 提交日期: 2026-03-03

agents multi-modal model evaluation web navigation visual grounding explicit memory benchmark autonomous agents

看见与记忆：一种用于网页遍历的多模态智能体 / See and Remember: A Multimodal Agent for Web Traversal

1️⃣ 一句话总结

这篇论文提出了一种名为V-GEMS的新型多模态智能体，它通过结合视觉定位和显式记忆系统，让AI在浏览网页时能更好地理解界面元素并记住走过的路径，从而有效避免迷路和重复打转，显著提升了网页导航的准确性和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02363

arXiv 提交日期: 2026-03-02

computer vision video model evaluation video moment retrieval query generalization detr architectures benchmark multi-moment queries

超越基于字幕查询的视频片段检索 / Beyond Caption-Based Queries for Video Moment Retrieval

1️⃣ 一句话总结

这篇论文发现，现有基于字幕训练的视频片段检索模型在处理更简洁的搜索查询或多片段查询时性能会显著下降，并通过分析问题根源和修改模型结构，有效提升了模型在这些实际场景下的检索准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.02663

1️⃣ 一句话总结

arXiv ID: 2603.03270

1️⃣ 一句话总结

arXiv ID: 2603.03252

1️⃣ 一句话总结

arXiv ID: 2603.03230

1️⃣ 一句话总结

arXiv ID: 2603.03066

1️⃣ 一句话总结

arXiv ID: 2603.02985

1️⃣ 一句话总结

arXiv ID: 2603.02775

1️⃣ 一句话总结

arXiv ID: 2603.02681

1️⃣ 一句话总结

arXiv ID: 2603.02626

1️⃣ 一句话总结

arXiv ID: 2603.02363

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.02663 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03270 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03252 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03230 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03066 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02985 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02775 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02681 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02626 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02363 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.02663

arXiv ID: 2603.03270

arXiv ID: 2603.03252

arXiv ID: 2603.03230

arXiv ID: 2603.03066

arXiv ID: 2603.02985

arXiv ID: 2603.02775

arXiv ID: 2603.02681

arXiv ID: 2603.02626

arXiv ID: 2603.02363