DAComp:一个覆盖完整数据智能生命周期的数据智能体基准测试 / DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle
1️⃣ 一句话总结
这篇论文提出了一个名为DAComp的综合性基准测试,包含210个任务,用于全面评估数据智能体在从原始数据加工到商业决策分析的全流程中的实际能力,结果发现当前最先进的智能体在复杂数据工程和开放式分析任务上表现均不佳,揭示了其关键瓶颈。
请先 登录 后再提交论文
DAComp:一个覆盖完整数据智能生命周期的数据智能体基准测试 / DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle
这篇论文提出了一个名为DAComp的综合性基准测试,包含210个任务,用于全面评估数据智能体在从原始数据加工到商业决策分析的全流程中的实际能力,结果发现当前最先进的智能体在复杂数据工程和开放式分析任务上表现均不佳,揭示了其关键瓶颈。
ARM-Thinker:通过智能工具使用与视觉推理增强多模态生成奖励模型 / ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
这篇论文提出了一个名为ARM-Thinker的新型智能奖励模型,它能够自主调用外部工具来验证视觉细节和多页文档证据,从而显著提升了多模态任务中奖励判断的准确性和可解释性。
RULER-Bench:探究面向视觉基础智能的下一代视频生成模型的规则推理能力 / RULER-Bench: Probing Rule-based Reasoning Abilities of Next-level Video Generation Models for Vision Foundation Intelligence
这篇论文提出了一个名为RULER-Bench的新基准测试,专门用于系统评估视频生成模型是否能够理解和遵循物理、逻辑等各类规则进行推理,结果发现当前最先进的模型在此方面仍有很大不足,为推动视频模型向具备更强推理能力的视觉基础智能发展提供了重要工具和见解。
InnoGym:评估AI智能体创新潜力的基准测试 / InnoGym: Benchmarking the Innovation Potential of AI Agents
这篇论文提出了首个专门评估AI智能体创新潜力的基准测试框架InnoGym,它通过‘性能增益’和‘方法新颖性’两个指标来衡量智能体是否不仅能给出正确答案,还能提出原创性的解决方案,揭示了当前AI在创造性与有效性之间存在差距。
ViDiC:视频差异描述 / ViDiC: Video Difference Captioning
这篇论文提出了一个名为ViDiC的新任务和对应数据集,旨在让多模态大语言模型能够精细地描述视频之间的异同,并发现现有模型在这方面的能力仍有显著不足。
通过高效启发式辅助构造实现金牌级别的奥数几何解题 / Gold-Medal-Level Olympiad Geometry Solving with Efficient Heuristic Auxiliary Constructions
这篇论文提出了一种名为HAGeo的高效几何定理证明方法,它不依赖神经网络,仅通过启发式策略添加辅助点线,就在国际数学奥林匹克级别的几何题上达到了金牌选手的解题水平,并超越了之前的神经网络方法。
超越描述:为具身智能体建立细粒度动作的认知基准 / Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents
这篇论文提出了一个名为CFG-Bench的新基准测试,专门用于评估多模态大语言模型在理解并生成精细物理动作指令方面的认知能力,发现当前主流模型在此方面存在显著不足,但通过在其数据上进行微调可以有效提升模型在具身任务上的表现。
AlignBench:利用合成图像-描述对评估细粒度图文对齐的基准 / AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs
这篇论文提出了一个名为AlignBench的新基准测试,它通过评估由多种模型生成的详细图文对来更精细地衡量图像与文本的对齐程度,并发现当前主流模型在细粒度对齐上存在明显缺陷。
Qwen3-VL技术报告 / Qwen3-VL Technical Report
这篇论文介绍了通义千问系列目前最强的多模态大模型Qwen3-VL,它在文本理解、长上下文处理以及图像视频推理方面都表现卓越,并提供了从轻量到超大规模的不同版本,旨在成为现实应用中多模态智能的核心引擎。
StreamGaze:流媒体视频中的视线引导时序推理与前瞻性理解 / StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos
这篇论文提出了首个名为StreamGaze的基准测试,用于评估多模态大模型如何利用实时视线信号来理解动态视频内容、推断用户意图并进行前瞻性预测,结果发现现有模型在这些方面与人类能力存在显著差距。