← 返回列表

🤖 系统

📄 Abstract

⏳ 正在获取摘要...

📄 论文总结

中英文论文题目：
WE-MATH 2.0: A Structured Knowledge System and Dynamic Reinforcement Learning Framework for Multimodal Mathematical Reasoning
WE-MATH 2.0：面向多模态数学推理的结构化知识系统与动态强化学习框架

1️⃣ 一句话总结

WE-MATH 2.0 提出了一种结合 结构化数学知识系统 和 两阶段强化学习 的框架，显著提升了多模态大语言模型（MLLMs）在复杂数学推理任务中的性能，并通过 三维难度建模 和 动态数据调度 实现了高效的知识泛化与推理能力提升。

2️⃣ 论文创新点

1. 结构化数学知识系统

创新点：构建了五层级知识体系（491个知识点 + 1,819条基础原理），覆盖代数、几何等多个数学领域，支持系统性知识监督。
改进：相比传统MLLMs的零散知识表示，该体系通过“定义-定理-应用”范式实现可解释的数学推理。
意义：为模型提供明确的数学逻辑链，减少幻觉推理，提升解题准确性。

2. 模型中心化数据空间建模

创新点：提出 MathBook-Standard（双扩展策略增强多样性）和 MathBook-Pro（三维难度空间：步骤/视觉/上下文复杂性）。
改进：传统数据集缺乏难度可控性，而三维建模支持渐进式问题生成（如从单步计算到多模态抽象推理）。
意义：为强化学习提供梯度化训练数据，优化模型泛化能力。

3. 两阶段动态强化学习框架（MathBook-RL）

创新点：
冷启动微调（SFT）：通过知识驱动的标注数据对齐基础推理范式。
渐进对齐RL：动态调度数据难度（错误时降级至单模态或增量知识样本）。
改进：传统RL训练易陷入局部最优，而动态调度结合课程学习提升稳定性。
意义：在仅9.8K训练样本下实现高效对齐，性能接近GPT-4o等更大模型。

4. 人机协同的高质量数据生成

创新点：融合AI聚类（K [auto]）与专家标注（K [human]），并通过GeoGebra实现精确图表生成与变体扩展（如“一题多图”）。
改进：超越Python渲染的粗糙性，确保几何关系的数学严谨性。
意义：为多模态推理提供语义一致且多样化的训练数据。

3️⃣ 主要结果与价值

实验结果亮点

性能优势：MathBook-7B 在MathVista、MathVision等基准上超越同类模型（如Qwen2.5-VL-7B），代数任务准确率>50%，几何任务仍具挑战性。
数据效率：仅用9.8K样本达到SOTA，证明结构化知识系统的高效性。
消融实验：两阶段RL（RL-Pre + RL-Dyn）是关键，SFT单独作用有限但为RL奠定基础。

实际应用价值

教育领域：附带GeoGebra文件的数据集支持智能辅导系统开发，促进个性化学习。
跨领域泛化：三维难度建模和动态RL策略可迁移至其他复杂推理任务（如物理、编程）。
开源贡献：发布 MathBookEval 评估基准，填补中高难度推理问题的评测空白。

4️⃣ 术语表

MLLMs：多模态大语言模型，支持视觉与文本联合推理。
WE-MATH 2.0：本文框架，包含知识系统、数据集、训练方法和评估基准。
MathBook-RL：两阶段强化学习框架（SFT + 动态RL）。
MathBookEval：知识点与推理深度对齐的评估基准。
GeoGebra (GGB)：用于生成精确数学图表的工具。
三维难度建模：通过步骤复杂性（ϕₛ）、视觉复杂性（ϕᵥ）、上下文复杂性（ϕₑ）量化问题难度。
D_ImgVar/D_QstVar：通过图像/问题变体增强数据集多样性的子集。

总结特点：
1. 系统性创新：从知识构建、数据生成到训练方法形成闭环。
2. 轻量高效：小数据驱动大性能，适合资源受限场景。
3. 可解释性：结构化知识体系支持推理过程追溯，优于黑箱模型。

📄 打开原文 PDF