arXiv ID:
2604.23897
arXiv 提交日期: 2026-04-26
市场基准:评估AI代理作为市场参与者的能力 / MarketBench: Evaluating AI Agents as Market Participants
1️⃣ 一句话总结
该论文提出了一个名为MarketBench的基准测试,用于评估AI代理(如大型语言模型)在市场中自我评估能力(即预测自己能否完成任务及所需成本)的准确性,并通过实验发现当前AI代理的自我评估存在严重偏差,导致市场资源分配效率低下,而加入历史经验信息只能轻微改善这一瓶颈。