arXiv ID:
2604.16845
arXiv 提交日期: 2026-04-18
DART:通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害偏移 / DART: Mitigating Harm Drift in Difference-Aware LLMs via Distill-Audit-Repair Training
1️⃣ 一句话总结
本文提出了一种名为DART的训练框架,通过先让模型学习何时该承认群体差异、再审计并修复回答中有害内容的“三步法”,有效解决了AI模型在提升差异识别准确性时意外生成更危险内容的问题,最终让模型既能准确回答涉及性别、种族等差异的问题,又保持安全无害。