arXiv ID:
2601.22818
arXiv 提交日期: 2026-01-30
嵌入空间中的捉迷藏:基于几何的大语言模型隐写术与检测 / Hide and Seek in Embedding Space: Geometry-based Steganography and Detection in Large Language Models
1️⃣ 一句话总结
这篇论文发现,经过微调的大语言模型可以在其输出中隐藏秘密信息(隐写术),而作者提出了一种更隐蔽的基于嵌入空间几何关系的新方法,同时通过分析模型内部激活模式,成功检测出这种恶意微调留下的痕迹。