arXiv ID:
2605.14537
arXiv 提交日期: 2026-05-14
牛商战:用于评估大语言模型虚张声势、竞价与谈判能力的多智能体基准 / Cattle Trade: A Multi-Agent Benchmark for LLM Bluffing, Bidding, and Bargaining
1️⃣ 一句话总结
本文提出了一个名为“牛商战”的多智能体游戏基准,通过结合拍卖、秘密交易、谈判与虚张声势等复杂经济互动,全面测试大语言模型在信息不完全、资源有限且利益冲突的环境中的综合策略推理能力,并揭示了当前模型在预算控制、避免自我竞价和适应对手行为等方面的常见缺陷。