arXiv ID:
2603.01784
通过结构化对抗进化实现协同进化的多模态对齐 / Co-Evolutionary Multi-Modal Alignment via Structured Adversarial Evolution
1️⃣ 一句话总结
这篇论文提出了一个名为CEMMA的自动化自适应框架,通过让攻击者(不断进化生成更难破解的恶意提示)和防御者(持续学习这些新攻击来增强模型安全性)相互对抗、共同进化,从而更有效地提升多模态AI模型与人类价值观对齐的鲁棒性和泛化能力。