arXiv ID:
2606.06113
arXiv 提交日期: 2026-06-04
缺陷的结构化定位:为文本到图像反馈提供位置、类型、原因及重要性 / Where, What, Why, and Importance: Structured Defect Grounding for Text-to-Image Feedback
1️⃣ 一句话总结
该论文提出了一种名为“结构化缺陷定位”(SDG)的新方法,将文本生成图像中的缺陷诊断转化为结构化预测任务,通过为每个缺陷标注“位置、类型、原因和重要性”四个要素,并配合新构建的数据集和评估标准,显著提升了对图像缺陷的精准定位与语义解释能力,从而帮助改善图像生成质量。