arXiv ID:
2602.04809
arXiv 提交日期: 2026-02-04
超越奖励:强化学习在网络安全防御中的应用 / Beyond Rewards in Reinforcement Learning for Cyber Defence
1️⃣ 一句话总结
这篇论文通过系统研究发现,在训练网络安全AI防御系统时,使用简单明确的目标奖励(稀疏奖励)比复杂精细设计的综合奖励(密集奖励)更能训练出可靠、高效且风险更低的防御策略。