arXiv ID:
2603.22847
重新思考多模态思维链的令牌级策略优化 / Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought
1️⃣ 一句话总结
这篇论文提出了一种名为PEPO的新方法,通过精细分析多模态推理过程中每个令牌的动态特性,并利用感知先验和探索性机制来优化模型,从而在多类视觉语言推理任务上稳定且显著地提升了性能。