arXiv ID:
2605.18592
arXiv 提交日期: 2026-05-18
AMARIS:一种基于记忆增强的评分规则改进系统,用于强化学习中的评分规则奖励机制 / AMARIS: A Memory-Augmented Rubric Improvement System for Rubric-Based Reinforcement Learning
1️⃣ 一句话总结
AMARIS通过引入一个持久化的评估记忆库,让AI模型在强化学习训练过程中能长期积累和检索历史评估信息,从而动态优化评分规则,避免每次从头推导评估原则,提升了奖励信号的准确性和训练效率。