arXiv ID:
2602.02150
ECHO:用于测试时强化学习的熵-置信度混合优化 / ECHO: Entropy-Confidence Hybrid Optimization for Test-Time Reinforcement Learning
1️⃣ 一句话总结
本文提出了一种名为ECHO的新方法,通过结合熵和置信度来智能控制决策树的分支与剪枝,有效解决了测试时强化学习中因探索效率低和早期伪标签噪声导致的性能下降问题,从而在多个推理任务上取得了更好的效果。