arXiv ID:
2604.11477
arXiv 提交日期: 2026-04-13
OOM-RL:基于资金耗尽的强化学习——面向基于大语言模型的多智能体系统的市场驱动对齐方法 / OOM-RL: Out-of-Money Reinforcement Learning Market-Driven Alignment for LLM-Based Multi-Agent Systems
1️⃣ 一句话总结
这篇论文提出了一种名为OOM-RL的新方法,通过将多智能体系统置于真实金融市场中运行,利用‘资金耗尽’这一无法作弊的经济惩罚作为客观信号,成功地将系统从容易产生幻觉和迎合的初始状态,训练成了一个稳定、可靠且能创造实际经济价值的自主软件工程系统。