🤖 系统
11-30 17:44
📄 论文总结
HSCodeComp:一个用于分层规则应用深度搜索代理的现实且专家级基准 / HSCodeComp: A Realistic and Expert-level Benchmark for Deep Search Agents in Hierarchical Rule Application
1️⃣ 一句话总结
这篇论文提出了首个面向电子商务领域的专家级基准测试HSCodeComp,用于评估AI代理在复杂分层规则(如关税代码分类)中的应用能力,实验显示当前最优AI代理的准确率仅为46.8%,远低于人类专家的95%,凸显了现有技术在处理模糊规则和隐含逻辑关系方面的重大挑战。