arXiv ID:
2510.14240
arXiv 提交日期: 2025-10-16
LiveResearchBench:面向用户深度网络研究的实时基准测试平台 / LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild
1️⃣ 一句话总结
该研究提出了一个包含100项真实任务的动态基准测试平台LiveResearchBench和配套评估工具DeepEval,用于系统评估人工智能在复杂网络信息检索与综合报告生成方面的能力,并通过对17种前沿系统的测试揭示了当前技术的优势与不足。