arXiv ID:
2606.12114
arXiv 提交日期: 2026-06-10
面向大型语言模型的日语预训练语料中的敏感个人信息检测 / Detecting Sensitive Personal Information in Japanese Pre-Training Corpora for Large Language Models
1️⃣ 一句话总结
本研究针对日语大语言模型预训练数据中可能出现的敏感个人信息,利用大模型自动标注数据并训练分类器,首次实现了对日本《个人信息保护法》所定义的特殊需注意个人信息的有效检测,为隐私合规提供了自动化解决方案。