arXiv ID:
2603.27942
arXiv 提交日期: 2026-03-30
JaWildText:一个用于评估视觉语言模型在日语场景文本理解能力的基准数据集 / JaWildText: A Benchmark for Vision-Language Models on Japanese Scene Text Understanding
1️⃣ 一句话总结
这篇论文提出了一个专门针对日语自然场景文本理解的新基准数据集JaWildText,它通过三个互补任务来全面评估视觉语言模型在处理日语特有的混合文字、竖排书写和大字符集等复杂情况时的能力,并发现当前模型在识别汉字方面仍存在主要瓶颈。