arXiv ID:
2603.15220
arXiv 提交日期: 2026-03-16
InterPol:通过插值偏好学习对LM Arena进行去匿名化 / InterPol: De-anonymizing LM Arena via Interpolated Preference Learning
1️⃣ 一句话总结
这篇论文提出了一种名为INTERPOL的新方法,它通过合成模型间的混合数据并学习其深层风格特征,能够有效地识别出匿名大语言模型的真实身份,从而揭示了类似LM Arena这类投票排行榜存在严重的安全漏洞。