← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: llm agents
详细标签: research agents multi-agent systems evaluation framework academic benchmarking task generation 或 搜索:

📄 论文总结

DeepResearch Arena:基于学术研讨会的深度研究代理评估基准

DeepResearch Arena: An Academic Colloquium-Based Benchmark for Evaluating Deep Research Agents


1️⃣ 一句话总结

DeepResearch Arena是一个基于学术研讨会构建的新型基准,通过多智能体分层任务生成系统(MAHTG)自动提取高质量研究任务,结合混合评估框架,用于全面评估大型语言模型驱动的深度研究代理在真实研究场景中的能力。


2️⃣ 论文创新点

1. 基于学术研讨会的基准构建

2. 多智能体分层任务生成系统(MAHTG)

3. 混合评估框架(KAE + ACE)


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表

📄 打开原文 PDF