arXiv ID:
2601.10305
arXiv 提交日期: 2026-01-15
丹青:一个最新的大规模中文视觉-语言预训练数据集 / DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset
1️⃣ 一句话总结
这篇论文为了解决高质量中文图文数据稀缺的问题,构建了一个包含1亿对高质量、时效性强(主要来自2024-2025年)的中文图文数据集“丹青”,并通过实验证明使用该数据集训练的模型在多种中文下游任务上表现更优。