arXiv ID:
2602.16154
arXiv 提交日期: 2026-02-18
通过多听众软执行实现忠实推理:一种多方强化学习框架 / Balancing Faithfulness and Performance in Reasoning via Multi-Listener Soft Execution
1️⃣ 一句话总结
本文提出了一种名为REMUL(Reasoning Execution by Multiple Listeners)的多方强化学习框架,通过训练说话者模型生成能被一组多样化听众模型一致执行的推理轨迹,并引入掩码监督微调来平衡答案正确性,从而在多个推理基准上同时提升了推理的忠实性和任务性能。