arXiv ID:
2605.20693
arXiv 提交日期: 2026-05-20
通过一致性和标签解耦实现可解释的判别性文本表示 / Interpretable Discriminative Text Representations via Agreement and Label Disentanglement
1️⃣ 一句话总结
本文提出了一种新的可解释文本分类方法,通过要求每个特征既能被不同标注者一致识别,又不与预测标签直接重复,从而生成清晰、可信且不易泄露标签信息的文本表示,实验证明该方法在保持分类性能的同时显著提升了特征的可审核性。