LLM-in-Sandbox Elicits General Agentic Intelligence

📄 Abstract - LLM-in-Sandbox Elicits General Agentic Intelligence

We introduce LLM-in-Sandbox, enabling LLMs to explore within a code sandbox (i.e., a virtual computer), to elicit general intelligence in non-code domains. We first demonstrate that strong LLMs, without additional training, exhibit generalization capabilities to leverage the code sandbox for non-code tasks. For example, LLMs spontaneously access external resources to acquire new knowledge, leverage the file system to handle long contexts, and execute scripts to satisfy formatting requirements. We further show that these agentic capabilities can be enhanced through LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL), which uses only non-agentic data to train models for sandbox exploration. Experiments demonstrate that LLM-in-Sandbox, in both training-free and post-trained settings, achieves robust generalization spanning mathematics, physics, chemistry, biomedicine, long-context understanding, and instruction following. Finally, we analyze LLM-in-Sandbox's efficiency from computational and system perspectives, and open-source it as a Python package to facilitate real-world deployment.

LLM-in-Sandbox：通过代码沙箱解锁大语言模型的通用智能 / LLM-in-Sandbox Elicits General Agentic Intelligence

1️⃣ 一句话总结

本文提出了LLM-in-Sandbox框架，让大语言模型在代码沙箱（虚拟计算机）中自主探索，无需额外训练即可激发其在数学、物理、化学、生物医学等非代码领域的通用智能，并通过强化学习（LLM-in-Sandbox-RL）进一步提升模型能力。

2️⃣ 论文创新点

1. LLM-in-Sandbox通用框架

创新点：提出一种新范式，让LLM在一个具备外部资源访问、文件管理和代码执行三大核心能力的代码沙箱（虚拟计算机）中运行，以完成用户指定的任务。
区别/改进：相比现有面向软件工程的复杂、任务特定的沙箱系统，LLM-in-Sandbox采用轻量级、通用型设计，仅预置标准Python解释器和基础科学计算库，将获取特定领域工具的任务委托给模型自身。
意义：结合LLM的强大推理与智能体能力，解锁其在通用任务上的智能潜力，支持多样化任务而无需手动重新配置，并有利于大规模高效推理和训练。

2. 共享沙箱环境与最小化工具集设计

创新点：为所有任务使用一个共享的、预配置的代码沙箱环境，而非为每个任务创建独立环境；在沙箱中仅配备三个基本工具：执行任意终端命令、文件创建/查看/编辑、以及指示任务完成。
区别/改进：避免了为每个任务手动重新配置环境，支持多样化任务而无需更改环境；通过这三个基础工具的组合，实现了计算机的核心能力，支持安装包、管理文件、运行程序等几乎所有操作。
意义：提高了通用性和可扩展性，在扩展到数千个任务时能保持恒定的存储占用（约1.1GB），显著优于需要为每个任务存储独立镜像的方法（可能高达6TB）；提供了最基础且通用的接口，使模型能够自由探索和完成广泛的计算任务。

3. 基于ReAct的工作流程与基于文件的输入输出处理

创新点：工作流程建立在ReAct框架上，模型根据环境反馈迭代地进行推理和行动，直到调用提交或达到最大轮次限制；利用沙箱的文件系统灵活处理多样化的输入输出格式，输入可通过提示词或文件提供，输出被指示放置到指定位置。
区别/改进：将沙箱特定组件（如工具调用、文件系统交互）集成到标准的ReAct循环中，鼓励自由探索并支持灵活的输入输出处理；将探索过程与最终输出清晰分离，并自然地适应各种数据格式。
意义：实现了模型与计算环境的多轮交互，使模型能够通过程序执行和计算工具来推导答案，而非直接硬编码结果，提升了解决复杂任务的能力；为处理不同类型任务（尤其是需要读取长文档的任务）提供了统一且灵活的机制，确保了最终输出的纯净性。

4. LLM-in-Sandbox强化学习（LLM-in-Sandbox-RL）

创新点：提出一种新的强化学习范式，在通用沙箱环境中使用基于上下文的通用领域数据训练LLM，旨在解锁LLM的潜力并提升其泛化能力。
区别/改进：克服了现有方法（如纯文本LLM-RL和特定领域SWE-RL）的局限性，同时实现了沙箱利用、通用领域适用性和数据/环境可扩展性。
意义：使模型能够在沙箱中有效探索，学习利用沙箱能力，并有望显著提升LLM在通用任务上的泛化能力；通过多轮沙箱交互（每步行动获得明确反馈）学习到的推理模式，能够有效地迁移到纯LLM推理场景，提升了模型输出的条理性和可靠性。

3️⃣ 主要结果与价值

结果亮点

在数学、物理、化学、生物医学、长文本理解和指令遵循等多个非代码领域的评估表明，强大的智能体模型在沙箱模式下性能普遍提升，最大增益达+24.2%（Qwen3-Coder在数学任务上）。
对模型沙箱利用行为的定量分析框架显示，数学任务因高计算频率（43.4%）受益最大，化学任务则因安装特定包而外部资源访问率最高（18.4%）。长上下文任务通过将文档存储在沙箱中（而非提示词中）获得了显著性能提升。
LLM-in-Sandbox-RL训练在多个领域、模型能力和推理模式上表现出广泛的泛化能力，优于LLM-RL基线，且训练后模型在标准LLM模式下的输出也表现出显著增加的结构性组织和验证行为。
在长上下文任务中，通过将内容存储在本地文件而非提示中，显著减少了token消耗（例如Qwen模型从100K降至13K，减少高达8倍），LLM-in-Sandbox在所有任务上的总token消耗仅为LLM模式的0.5-0.8倍。

实际价值

提供了一种高效处理长文档、代码库等大规模上下文信息的方案，大幅降低了相关任务的计算成本。
框架设计具有高可扩展性，共享沙箱环境使得扩展到数千任务时存储占用保持恒定，有利于大规模部署。
开源的Python包便于研究社区和开发者使用与扩展，推动智能体与工具交互领域的研究。
LLM-in-Sandbox-RL方法表明，通过通用数据在沙箱中训练，可以提升模型在广泛任务上的能力，为训练更通用的AI智能体提供了新方向。

4️⃣ 术语表

LLM-in-Sandbox：一种让大型语言模型在代码沙箱（虚拟计算机）中运行的范式或框架。模型可以迭代调用工具（如执行bash命令、编辑文件）来完成任务，基于ReAct框架，并能访问外部资源、管理文件和执行代码。
code sandbox：一个虚拟化的计算环境（通常是通过Docker容器实现的基于Ubuntu的系统），为LLM提供终端访问和完整的系统能力，允许其执行任何bash命令、创建修改文件以及访问网络资源。
ReAct：一个框架，其中模型通过迭代地进行推理（Reasoning）和行动（Acting）来与环境交互，基于环境反馈决定下一步行动。
LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL)：一种提出的强化学习训练范式，让大型语言模型（LLM）在通用代码沙箱环境中使用基于上下文的通用领域数据进行训练，旨在提升其泛化能力。
LLM-RL：基线强化学习方法，模型在普通LLM模式下生成轨迹，并基于最终输出的正确性获得奖励，用于训练模型处理上下文任务而不涉及沙箱交互。
SWE-RL：指在沙箱环境中针对软件工程任务进行强化学习训练的方法，依赖于特定领域的数据。
能力使用率：衡量模型利用沙箱核心能力（计算、外部资源访问、文件管理）的指标，计算为特定能力调用次数与总交互轮次的比例。
Prefill：一种快速的token处理阶段（由Dao等人于2022年提出），用于处理已知的、非自回归生成的输入token，例如环境执行返回的结果。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. LLM-in-Sandbox通用框架

2. 共享沙箱环境与最小化工具集设计

3. 基于ReAct的工作流程与基于文件的输入输出处理

4. LLM-in-Sandbox强化学习（LLM-in-Sandbox-RL）

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. LLM-in-Sandbox通用框架

2. 共享沙箱环境与最小化工具集设计

3. 基于ReAct的工作流程与基于文件的输入输出处理

4. LLM-in-Sandbox强化学习（LLM-in-Sandbox-RL）

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要