arXiv ID:
2601.09688
DeepResearchEval:一种用于深度研究任务构建与智能体评估的自动化框架 / DeepResearchEval: An Automated Framework for Deep Research Task Construction and Agentic Evaluation
1️⃣ 一句话总结
这篇论文提出了一个名为DeepResearchEval的自动化框架,它能够自动生成复杂的深度研究任务,并利用一个智能评估系统来动态、全面地评估研究系统的表现,特别解决了传统方法在任务构建上依赖人工标注、评估维度僵化以及难以核实无引用事实的问题。