arXiv ID:
2512.14944
arXiv 提交日期: 2025-12-16
面向视觉中心推理的谜题课程GRPO / Puzzle Curriculum GRPO for Vision-Centric Reasoning
1️⃣ 一句话总结
这篇论文提出了一种名为PC-GRPO的新方法,它通过设计一系列自监督的视觉谜题任务和动态难度课程,无需人工标注或外部验证器,就能有效提升视觉语言模型的推理能力、训练稳定性和最终答案的准确性。