arXiv ID:
2602.23391
arXiv 提交日期: 2026-02-24
基于表征擦除的偏好优化实现大语言模型脱毒 / Detoxifying LLMs via Representation Erasure-Based Preference Optimization
1️⃣ 一句话总结
这篇论文提出了一种名为REPO的新方法,通过从模型内部表征层面直接消除有害信息,而非仅仅抑制有害输出,从而更根本、更鲁棒地解决大语言模型生成有毒内容的问题。