arXiv最新AI论文速览速学

🔍

标签: #agent evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: GroundEval: A Deterministic Replacement for LLM-as-Judge in Stateful Agent Evaluation 06-23

arXiv ID: 2606.22737

arXiv 提交日期: 2026-06-22

agents model evaluation agent evaluation stateful agents evidence grounding benchmark llm-as-judge

GroundEval：面向有状态智能体评估的确定性替代方案，取代大语言模型担任裁判 / GroundEval: A Deterministic Replacement for LLM-as-Judge in Stateful Agent Evaluation

1️⃣ 一句话总结

该论文提出了一种名为GroundEval的新评估框架，通过核查智能体实际搜索、获取和引用的证据轨迹，而不是仅依赖大语言模型对最终答案的主观打分，从而更准确地检测智能体是否基于真实依据而非貌似合理的表面信息给出回答。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.09461

arXiv 提交日期: 2026-06-08

llm agents multi-modal memory benchmark human-human interaction multimodal memory conversation understanding agent evaluation

H2HMem：面向人人交互场景的智能体多模态记忆基准 / H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions

1️⃣ 一句话总结

该论文提出了一个名为H2HMem的新型多模态记忆评估基准，专门用于测试AI智能体在人类与人类的复杂对话场景（如多人会议）中，记忆、推理和运用多模态信息的能力，发现现有智能体在这类任务上存在显著不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.05872

arXiv 提交日期: 2026-06-04

agents model evaluation machine learning entropy behavioral metrics exploration robustness agent evaluation

基于熵的AI智能体评估：一种用于测量行为模式的轻量级框架 / Entropy-Based Evaluation of AI Agents: A Lightweight Framework for Measuring Behavioral Patterns

1️⃣ 一句话总结

该论文提出了一种名为EEA的轻量级评估框架，通过分析AI智能体在决策过程中的行为模式（如探索程度、重复性、工具使用效率等），利用熵这一概念来量化其行为质量，从而弥补传统仅依赖任务完成度等单一指标的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.02536

arXiv 提交日期: 2026-06-01

agents llm behavior agent evaluation behavioral traits skill files embedding analysis agent-to-agent protocol

追踪自适应智能体的行为轨迹 / Tracking the Behavioral Trajectories of Adapting Agents

1️⃣ 一句话总结

本文提出了一种通过分析智能体技能文件的文本变化来量化其行为特质的方法，例如判断智能体是否更倾向于获取敏感数据，从而实现对其行为演变的追踪与评估。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.17946

arXiv 提交日期: 2026-05-18

multi-modal benchmark agents short-video frame search gaming domain multimodal retrieval agent evaluation knowledge-intensive

SVFSearch：面向游戏短视频帧搜索的多模态知识密集型基准 / SVFSearch: A Multimodal Knowledge-Intensive Benchmark for Short-Video Frame Search in the Gaming Vertical Domain

1️⃣ 一句话总结

该论文提出了首个针对游戏短视频领域、评估多模态AI模型在模糊视频帧上结合专业知识进行检索和推理能力的开放基准数据集，实验显示当前模型在知识获取和工具使用上仍有显著差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26904

arXiv 提交日期: 2026-04-29

agents machine learning training data synthesis reinforcement learning benchmark agent evaluation

ClawGym：构建高效个人数字助理的可扩展框架 / ClawGym: A Scalable Framework for Building Effective Claw Agents

1️⃣ 一句话总结

本文提出ClawGym框架，通过自动生成大规模、可验证的训练数据（13.5K任务），并利用监督微调和轻量级强化学习训练AI代理，同时构建了200个测试样本的基准，从而系统性地解决了开发个人数字助理（能操作本地文件、工具和持久工作空间）时缺乏标准化流程和评估方法的难题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14877

arXiv 提交日期: 2026-04-16

llm agents model evaluation reinforcement learning capability analysis tool use agent evaluation pass@(k,t)

强化学习真的扩展了大语言模型智能体的能力边界吗？一项基于PASS@(k,T)的分析 / Does RL Expand the Capability Boundary of LLM Agents? A PASS@(k,T) Analysis

1️⃣ 一句话总结

这篇论文通过引入一个新的评估指标PASS@(k,T)发现，在需要多轮交互和组合策略的复杂工具使用任务中，强化学习能真正扩展大语言模型智能体的能力边界，而不仅仅是提高其可靠性，其关键在于强化学习促进了智能体的自主探索和信息整合能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11978

arXiv 提交日期: 2026-04-13

llm agents benchmark long-horizon tasks failure analysis agent evaluation diagnostic benchmark trajectory analysis

长视野任务幻象？诊断智能体系统在何处及为何失效 / The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break

1️⃣ 一句话总结

这篇论文通过创建一个名为HORIZON的跨领域诊断基准，系统性地揭示了大型语言模型智能体在执行需要多步复杂操作的长视野任务时容易失败的原因，并提出了一个可扩展的自动化评估方法来分析这些失败模式，为构建更可靠的智能体提供了指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.11307

arXiv 提交日期: 2026-04-13

llm benchmark multi-modal scientific reasoning multi-document retrieval knowledge graphs agent evaluation long-context understanding

PaperScope：一个用于海量科学论文中智能深度研究的多模态多文档基准测试 / PaperScope: A Multi-Modal Multi-Document Benchmark for Agentic Deep Research Across Massive Scientific Papers

1️⃣ 一句话总结

这篇论文提出了一个名为PaperScope的新基准测试，它通过整合数千篇AI论文中的文本、表格和图表，来系统评估AI模型在多文档、多模态信息下进行深度科学推理和研究的能力，发现当前先进模型在此类复杂任务上仍面临巨大挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07776

arXiv 提交日期: 2026-04-09

llm agents model training web agents knowledge distillation synthetic data generation supervised fine-tuning agent evaluation

网络智能体能力的结构化蒸馏实现泛化 / Structured Distillation of Web Agent Capabilities Enables Generalization

1️⃣ 一句话总结

这篇论文提出了一种名为‘智能体即标注员’的结构化框架，它利用前沿大语言模型作为‘老师’自动生成高质量的网络操作轨迹数据，并以此训练一个更小、可本地部署的‘学生’模型，使其在多种网页导航任务上的性能超越了多个知名的闭源大模型，并展现出良好的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.22737

1️⃣ 一句话总结

arXiv ID: 2606.09461

1️⃣ 一句话总结

arXiv ID: 2606.05872

1️⃣ 一句话总结

arXiv ID: 2606.02536

1️⃣ 一句话总结

arXiv ID: 2605.17946

1️⃣ 一句话总结

arXiv ID: 2604.26904

1️⃣ 一句话总结

arXiv ID: 2604.14877

1️⃣ 一句话总结

arXiv ID: 2604.11978

1️⃣ 一句话总结

arXiv ID: 2604.11307

1️⃣ 一句话总结

arXiv ID: 2604.07776

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.22737 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.09461 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.05872 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.02536 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.17946 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26904 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14877 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11978 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.11307 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07776 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.22737

arXiv ID: 2606.09461

arXiv ID: 2606.05872

arXiv ID: 2606.02536

arXiv ID: 2605.17946

arXiv ID: 2604.26904

arXiv ID: 2604.14877

arXiv ID: 2604.11978

arXiv ID: 2604.11307

arXiv ID: 2604.07776