arXiv ID:
2604.10866
arXiv 提交日期: 2026-04-13
OccuBench:通过语言世界模型评估AI智能体在现实世界专业任务上的表现 / OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models
1️⃣ 一句话总结
这篇论文提出了一个名为OccuBench的基准测试,它利用语言世界模型模拟专业环境,首次系统地评估了AI智能体在10个行业、65个专业领域的100个真实任务场景中的表现,并发现不同模型在不同行业各有所长,且处理隐含数据错误比显式错误更具挑战性。