arXiv ID:
2601.05125
arXiv 提交日期: 2026-01-08
VERSE:视觉嵌入降维与空间探索——基于聚类指导的训练数据增强方法,用于富视觉文档理解 / VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding
1️⃣ 一句话总结
这篇论文提出了一个名为VERSE的方法,它通过分析和可视化视觉语言模型的内部表示,找出模型容易出错的区域,并据此生成针对性的合成数据来增强训练,从而显著提升模型在富视觉文档理解任务上的性能,甚至能让本地模型媲美云端商业模型。