arXiv ID:
2606.25445
arXiv 提交日期: 2026-06-24
C3-Bench:一种上下文感知的变化描述基准 / C3-Bench: A Context-Aware Change Captioning Benchmark
1️⃣ 一句话总结
为了解决现有变化描述系统在真实世界中表现评估不足的问题,该论文提出了一个包含近5000组人工标注图像、覆盖自然场景、遥感、图像编辑和异常检测四个领域51种真实变化情境的基准测试集C3-Bench,并首次引入大语言模型作为裁判来细致评估描述的正确性、具体性、流畅性和相关性,结果发现当前主流模型(包括GPT-5.2等顶级多模态模型)在面对与训练数据风格不同的新场景时会出现系统性错误,揭示了实现通用可靠变化描述系统的关键研究方向。