arXiv ID:
2602.11729
arXiv 提交日期: 2026-02-12
使用交叉编码器进行跨架构模型差异分析:无监督发现大语言模型间的差异 / Cross-Architecture Model Diffing with Crosscoders: Unsupervised Discovery of Differences Between LLMs
1️⃣ 一句话总结
这项研究提出了一种名为‘专用特征交叉编码器’的新方法,能够无监督地比较不同架构的大语言模型,并成功识别出它们在政治倾向、版权规避等安全关键行为上的具体差异。