arXiv ID:
2512.08868
arXiv 提交日期: 2025-12-09
EcomBench:面向电子商务领域的基础智能体综合评估基准 / EcomBench: Towards Holistic Evaluation of Foundation Agents in E-commerce
1️⃣ 一句话总结
这篇论文提出了一个名为EcomBench的综合性评估基准,它基于真实的全球电商平台用户需求构建,旨在全面测试智能体在复杂、动态的真实电商环境中的深度信息检索、多步推理和跨源知识整合等核心能力。