arXiv最新AI论文速览速学

📄

2512.04324

🤖 系统

12-05 14:48

benchmark agents systems

data engineering data analysis sql pipelines llm evaluation enterprise workflows

DAComp：一个覆盖完整数据智能生命周期的数据智能体基准测试 / DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

1️⃣ 一句话总结

这篇论文提出了一个名为DAComp的综合性基准测试，包含210个任务，用于全面评估数据智能体在从原始数据加工到商业决策分析的全流程中的实际能力，结果发现当前最先进的智能体在复杂数据工程和开放式分析任务上表现均不佳，揭示了其关键瓶颈。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.02622

🤖 系统

12-04 15:11

video generation model evaluation benchmark

rule-based reasoning video generation benchmark cognitive rules gpt evaluation vision foundation models

RULER-Bench：探究面向视觉基础智能的下一代视频生成模型的规则推理能力 / RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence

1️⃣ 一句话总结

这篇论文提出了一个名为RULER-Bench的新基准测试，专门用于系统评估视频生成模型是否能够理解和遵循物理、逻辑等各类规则进行推理，结果发现当前最先进的模型在此方面仍有很大不足，为推动视频模型向具备更强推理能力的视觉基础智能发展提供了重要工具和见解。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.01822

🤖 系统

12-04 14:53

agents benchmark model evaluation

innovation evaluation agent benchmarking novelty metrics performance gain solution diversity

InnoGym：评估AI智能体创新潜力的基准测试 / InnoGym: Benchmarking the Innovation Potential of AI Agents

1️⃣ 一句话总结

这篇论文提出了首个专门评估AI智能体创新潜力的基准测试框架InnoGym，它通过‘性能增益’和‘方法新颖性’两个指标来衡量智能体是否不仅能给出正确答案，还能提出原创性的解决方案，揭示了当前AI在创造性与有效性之间存在差距。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.03405

🤖 系统

12-04 14:44

multi-modal video benchmark

video difference captioning multimodal evaluation comparative reasoning video understanding dataset

ViDiC：视频差异描述 / ViDiC: Video Difference Captioning

1️⃣ 一句话总结

这篇论文提出了一个名为ViDiC的新任务和对应数据集，旨在让多模态大语言模型能够精细地描述视频之间的异同，并发现现有模型在这方面的能力仍有显著不足。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.00097

🤖 系统

12-04 14:41

artificial intelligence systems benchmark

automated theorem proving geometry heuristic search auxiliary constructions evaluation benchmark

通过高效启发式辅助构造实现金牌级别的奥数几何解题 / Gold-Medal-Level Olympiad Geometry Solving with Efficient Heuristic Auxiliary Constructions

1️⃣ 一句话总结

这篇论文提出了一种名为HAGeo的高效几何定理证明方法，它不依赖神经网络，仅通过启发式策略添加辅助点线，就在国际数学奥林匹克级别的几何题上达到了金牌选手的解题水平，并超越了之前的神经网络方法。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.18685

🤖 系统

12-04 14:37

multi-modal benchmark agents

embodied ai action understanding video reasoning cognitive benchmarking fine-grained action

超越描述：为具身智能体建立细粒度动作的认知基准 / Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents

1️⃣ 一句话总结

这篇论文提出了一个名为CFG-Bench的新基准测试，专门用于评估多模态大语言模型在理解并生成精细物理动作指令方面的认知能力，发现当前主流模型在此方面存在显著不足，但通过在其数据上进行微调可以有效提升模型在具身任务上的表现。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20515

🤖 系统

12-04 14:27

computer vision model evaluation benchmark

image-text alignment vision-language models synthetic data clip evaluation fine-grained assessment

AlignBench：利用合成图像-描述对评估细粒度图文对齐的基准 / AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs

1️⃣ 一句话总结

这篇论文提出了一个名为AlignBench的新基准测试，它通过评估由多种模型生成的详细图文对来更精细地衡量图像与文本的对齐程度，并发现当前主流模型在细粒度对齐上存在明显缺陷。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.01707

🤖 系统

12-03 16:05

multi-modal benchmark model evaluation

gaze-guided reasoning streaming video understanding proactive prediction intention modeling egocentric vision

StreamGaze：流媒体视频中的视线引导时序推理与前瞻性理解 / StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

1️⃣ 一句话总结

这篇论文提出了首个名为StreamGaze的基准测试，用于评估多模态大模型如何利用实时视线信号来理解动态视频内容、推断用户意图并进行前瞻性预测，结果发现现有模型在这些方面与人类能力存在显著差距。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.22989

🤖 系统

12-03 15:47

computer vision model evaluation benchmark

text-to-image multi-reference generation benchmark dataset model analysis image editing

MultiBanana：一个用于多参考文本到图像生成的挑战性基准 / MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation

1️⃣ 一句话总结

这篇论文提出了一个名为MultiBanana的新基准，它系统地评估了AI模型根据多张参考图片生成新图像的能力，并揭示了现有模型在应对参考图片数量、风格、尺度等复杂差异时的优势和不足。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.02942

🤖 系统

12-03 15:43

video generation benchmark model evaluation

scientific reasoning video models physics chemistry evaluation benchmark

使用VideoScience-Bench对视频生成模型的科学理解与推理能力进行基准测试 / Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench

1️⃣ 一句话总结

这篇论文提出了首个专门用于评估视频生成模型是否具备本科水平的科学理解与推理能力的基准测试VideoScience-Bench，它通过涵盖物理和化学的200个复杂科学场景提示，来检验模型生成内容是否符合真实世界的科学规律。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.04324

1️⃣ 一句话总结

2512.02622

1️⃣ 一句话总结

2512.01822

1️⃣ 一句话总结

2512.03405

1️⃣ 一句话总结

2512.00097

1️⃣ 一句话总结

2511.18685

1️⃣ 一句话总结

2511.20515

1️⃣ 一句话总结

2512.01707

1️⃣ 一句话总结

2511.22989

1️⃣ 一句话总结

2512.02942

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.04324 📝

1️⃣ 一句话总结

2512.02622 📝

1️⃣ 一句话总结

2512.01822 📝

1️⃣ 一句话总结

2512.03405 📝

1️⃣ 一句话总结

2512.00097 📝

1️⃣ 一句话总结

2511.18685 📝

1️⃣ 一句话总结

2511.20515 📝

1️⃣ 一句话总结

2512.01707 📝

1️⃣ 一句话总结

2511.22989 📝

1️⃣ 一句话总结

2512.02942 📝

1️⃣ 一句话总结

获取最新论文摘要

2512.04324

2512.02622

2512.01822

2512.03405

2512.00097

2511.18685

2511.20515

2512.01707

2511.22989

2512.02942