← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

顶级标签: llm agents

📄 论文总结

中英文论文题目：
GLM-4.5: A Unified Open-Source Language Model with Enhanced Agentic, Reasoning, and Coding Capabilities
GLM-4.5：具备增强代理、推理与编码能力的统一开源语言模型

1️⃣ 一句话总结

GLM-4.5 通过创新的混合专家架构（MoE）、动态训练策略和多阶段强化学习，首次在开源模型中实现了代理（Agentic）、推理（Reasoning）和编码（Coding）三大核心能力的均衡提升，并在参数效率（32B激活参数）、长上下文支持（128K）和任务通用性上显著优于同类模型。

2️⃣ 论文创新点

1. 混合专家架构（MoE）的高效设计

创新点：采用更深的层数（而非更宽的隐藏维度）结合动态路由（loss-free balance routing + sigmoid gates），激活参数仅32B（总参数量355B），计算效率提升3倍。
改进：相比传统MoE模型（如GPT-4），通过注意力头优化（96头）和QK-Norm稳定注意力分数，在MMLU/BBH等推理任务中表现更优。
意义：首次在开源模型中实现高性能与低计算成本的平衡，适合实际部署。

2. 动态训练与长上下文优化

创新点：两阶段预训练（通用数据→代码/数学上采样）结合动态序列长度扩展（4K→128K），调整RoPE基础频率增强长上下文建模。
改进：传统方法需分阶段训练不同长度，GLM-4.5通过Muon优化器（余弦衰减学习率）直接支持全范围扩展。
意义：模型可灵活适应短响应任务和长文档分析，如代码仓库级处理。

3. 混合推理与代理能力强化

创新点：支持“思考模式”（显式推理链）和“直接响应模式”切换，结合XML-like函数调用模板减少转义需求。
改进：传统代理模型（如Claude）依赖固定模板，GLM-4.5通过自动代理SFT数据构建（任务合成+轨迹生成）提升泛化性。
意义：在TAU-bench等代理任务中工具调用成功率90.6%，接近商用模型（如Claude Sonnet 4）。

4. 强化学习（RL）策略创新

创新点：提出单阶段64K输出长度RL训练（避免多阶段遗忘）、动态采样温度调整、token-weighted mean loss（代码任务）。
改进：传统RL需渐进增加长度，GLM-4.5直接训练长序列任务（如数学证明），性能提升12%。
意义：在SWE-bench等真实代码修改任务中通过率（pass@512）领先开源模型30%。

3️⃣ 主要结果与价值

实验结果亮点

综合性能：在12个ARC基准（如MMLU-Pro、AIME 24）中平均得分第一，AA-Index综合指标超越DeepSeek-R1等竞品。
效率优势：激活参数仅32B，推理速度比同规模模型快2倍（FP8量化支持）。
长上下文：128K序列长度下，Rouge-L保留率95%（对比GPT-4的89%）。

实际应用价值

跨领域通用性：在零售（TAU-bench）、航空（BFCL V3）、科学（GPQA-Diamond）等垂直领域表现均衡。
开发者友好：开源Slime框架支持异步RL训练，降低智能体开发门槛。
安全与可靠性：SafetyBench安全评分比Qwen3高20%，人工评估中创造性任务得分超专用模型（如Qwen-MT翻译）。

4️⃣ 术语表

MoE (Mixture-of-Experts)：动态路由的专家混合架构，提升模型效率与性能。
ARC (Agentic, Reasoning, Coding)：评估模型核心能力的三大指标。
RoPE (Rotary Position Embedding)：旋转位置编码，支持长上下文序列建模。
Muon优化器：针对大语言模型的优化器，加速收敛并支持动态序列长度。
GRPO：改进的强化学习框架，省略KL损失项以提升稳定性。
SafetyBench：覆盖7类安全议题（伦理、隐私等）的模型评估基准。
Slime：开源RL训练框架，支持同步/异步混合架构。

（总结合并了12个chunk的创新点与结果，剔除冗余信息，突出技术突破与实用价值。）

📄 打开原文 PDF