arXiv ID:
2511.13612
arXiv 提交日期: 2025-11-17
P1:通过强化学习掌握物理奥林匹克竞赛 / P1: Mastering Physics Olympiads with Reinforcement Learning
1️⃣ 一句话总结
这篇论文提出了一个名为P1的系列开源模型,它完全通过强化学习训练,在解决国际物理奥林匹克竞赛等高水平物理问题上表现卓越,甚至超越了人类金牌得主,同时展现出在数学和编程等其他推理任务上的强大通用能力。