arXiv ID:
2601.10922
arXiv 提交日期: 2026-01-16
多模态推理的数据策展中什么因素至关重要?来自DCVLR挑战的启示 / What Matters in Data Curation for Multimodal Reasoning? Insights from the DCVLR Challenge
1️⃣ 一句话总结
这项研究发现,在多模态推理任务中,从已对齐的基础数据集中精心挑选难度适中的样本,是提升模型性能的最关键因素,而单纯增加数据量或使用常见的多样性增强方法效果有限甚至有害。