arXiv ID:
2604.05523
arXiv 提交日期: 2026-04-07
市场基准:评估大语言模型在经济与贸易竞争中的表现 / Market-Bench: Benchmarking Large Language Models on Economic and Trade Competition
1️⃣ 一句话总结
这篇论文提出了一个名为Market-Bench的评估框架,通过模拟多智能体供应链中的采购与零售竞争,来测试大语言模型在经济资源管理和贸易决策中的实际能力,发现只有少数模型能持续盈利,多数模型表现平平。