🤖 系统
11-30 17:36
📄 论文总结
元认知增强推理模型:基于自对齐的强化学习 / Meta-Awareness Enhances Reasoning Models: Self-Alignment Reinforcement Learning
1️⃣ 一句话总结
这项研究提出了一种名为MASA的自对齐强化学习方法,通过训练语言模型自我评估推理过程来提升其元认知能力,从而在无需外部数据的情况下显著提高数学和逻辑推理任务的准确性和训练效率。