arXiv ID:
2602.04224
arXiv 提交日期: 2026-02-04
RAPO:面向可泛化安全推理的风险感知偏好优化 / RAPO: Risk-Aware Preference Optimization for Generalizable Safe Reasoning
1️⃣ 一句话总结
本文提出了一种名为RAPO的风险感知优化框架,通过让大型推理模型在思考过程中动态识别并应对不同级别的安全风险,有效提升了模型抵御各种复杂诱导攻击的能力,同时保持了其通用任务性能。