arXiv ID:
2602.04863
arXiv 提交日期: 2026-02-04
数据中的潜意识效应:一种通过对数线性实现的通用机制 / Subliminal Effects in Your Data: A General Mechanism via Log-Linearity
1️⃣ 一句话总结
这篇论文发现了一种通用机制,通过有选择地组合训练数据中的子集,可以在大语言模型中引发各种隐藏的、非直观的行为模式,例如特定偏好、跨语言响应或不同角色扮演,且该效应在不同模型架构中普遍存在。