arXiv ID:
2605.19866
arXiv 提交日期: 2026-05-19
用于鲁棒性分布外视觉文档理解的结构化布局先验 / Structured Layout Priors for Robust Out-of-Distribution Visual Document Understanding
1️⃣ 一句话总结
本文提出一种轻量级方法,通过在视觉语言模型解码前额外添加一个布局检测器,将识别到的文档结构以模型自身能理解的标签形式注入提示中,从而大幅提升模型对从未见过的新颖页面布局的理解能力,解决了传统模型在未知布局上容易出错或陷入无限循环的问题。