arXiv ID:
2512.15649
arXiv 提交日期: 2025-12-17
VTCBench:视觉语言模型能否理解经过视觉-文本压缩的长上下文? / VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?
1️⃣ 一句话总结
这篇论文提出了首个评估视觉语言模型在‘视觉-文本压缩’技术下长文本理解能力的基准测试,发现尽管模型能识别压缩图像中的文字,但在需要关联和推理长距离信息时表现不佳,为设计更高效的模型提供了重要参考。