arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2510.11718

🤖 系统

10-14 16:27

mathematical reasoning visual chain of thought code generation multimodal datasets geometry reasoning

📄 论文总结

基于代码驱动的视觉思维链：数学视觉推理新范式 / CodePlot-CoT: Code-Driven Chain of Thought for Mathematical Visual Reasoning

1️⃣ 一句话总结

该论文提出了一种创新的代码驱动视觉思维链方法CodePlot-CoT，通过生成可执行的绘图代码并将其渲染为图像作为视觉思维辅助，在首个大规模双语数学视觉推理数据集Math-VR上相比基线模型性能提升21%。

2️⃣ 论文创新点

1. CodePlot-CoT方法

创新点：一种代码驱动的思维链范式，通过生成绘图代码并渲染为图像来辅助数学推理，而非直接生成像素级图像
区别/改进：解决了纯文本推理链在需要视觉辅助的数学问题上的局限性，避免了直接图像生成在数学绘图中的精度问题
意义：为多模态数学推理开辟了新方向，在32B参数规模下超越72B模型，证明结构化可验证推理比模型规模更重要

2. Math-VR数据集

创新点：首个大规模双语数学视觉推理数据集和基准，包含178K样本，其中71%为多模态问题，几何问题占主导地位(81%)
区别/改进：填补了数学视觉推理领域缺乏大规模基准的空白，超越了单纯的视觉感知，要求解题者在文本和图像领域进行推理
意义：为社区提供了首个大规模数据集、综合基准和强有力方法

3. MatplotCode转换器

创新点：用于数学图形的高保真图像到代码转换器，实现代码和图像之间的双向映射
区别/改进：支持代码驱动的思维链训练，达到100%执行成功率和最佳重建保真度
意义：为视觉语言模型在数学视觉推理任务中的有效训练提供了新范式

3️⃣ 主要结果与价值

结果亮点

CodePlot-CoT在32B基础VLM上提升达21%，超越Qwen2.5-VL-72B
在Math-VR基准测试中，所有模型在答案正确性上仍有提升空间
相比纯文本推理和直接图像生成方法有显著性能提升
MatplotCode在图像到代码转换评估中表现最佳，执行成功率达100%

实际价值

为需要精确几何信息的数学问题提供了更可控的视觉推理方法
降低了推理成本，相比传统方法输出长度更高效
为教育领域的数学问题解决提供了新的技术路径
为多模态AI在科学计算领域的应用提供了新思路

4️⃣ 术语表

CodePlot-CoT：代码驱动的思维链范式，通过生成可执行绘图代码并渲染为图像来表示视觉思维，辅助数学推理
Math-VR：大规模双语数学视觉推理数据集和基准，包含178K样本，专注于需要图像推理的数学问题
VCoT：视觉思维链，模型在推理过程中主动检索或生成视觉辅助工具
MatplotCode：用于数学图形的高保真图像到代码转换器，支持代码和图像之间的双向映射
PS(Process Score)：过程得分指标，基于模型在推理过程中命中的得分点给予部分分数，即使最终答案错误
Execution Success Rate：生成代码无错误运行的概率
Reconstruction Fidelity：通过GPT-4.1判断重建图像与原始图像的相似度
Mint-CoT：一种在数学链式推理中实现交错视觉token的方法

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2510.11718

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. CodePlot-CoT方法

2. Math-VR数据集

3. MatplotCode转换器

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.11718 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. CodePlot-CoT方法

2. Math-VR数据集

3. MatplotCode转换器

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要

2510.11718