arXiv ID:
2603.05057
arXiv 提交日期: 2026-03-05
MUTEX:利用多语言Transformer与条件随机场增强乌尔都语有毒文本片段检测 / MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection
1️⃣ 一句话总结
这项研究提出了一个结合多语言Transformer和条件随机场的新模型MUTEX,首次为乌尔都语建立了能精准识别句子中有毒词汇片段(而非仅判断整句)的监督基线系统,有效应对了该语言因形态复杂、语码混合等带来的检测挑战。