🤖 系统
11-30 17:32
📄 论文总结
Phi:多模态大语言模型在推理时的偏好劫持 / Phi: Preference Hijacking in Multi-modal Large Language Models at Inference Time
1️⃣ 一句话总结
这篇论文揭示了一种针对多模态大语言模型的新型安全风险,即攻击者可以通过精心优化的图像在模型推理时操控其输出偏好,使其生成带有偏见但看似合理的回答,且无需修改模型本身。