arXiv ID:
2605.21993
arXiv 提交日期: 2026-05-21
证据耦合策略优化:面向可认证候选排序的证据驱动方法 / ECPO: Evidence-Coupled Policy Optimization for Evidence-Certified Candidate Ranking
1️⃣ 一句话总结
本文提出一种名为ECPO的排序方法,旨在让候选排序系统不仅输出排名,还能附带可验证的文本证据,通过强化学习联合优化排序效果与证据可信度,确保决策过程透明且可追溯。