arXiv ID:
2605.10887
在任何粒度下数任何东西 / Count Anything at Any Granularity
1️⃣ 一句话总结
本文提出了一种新的多粒度开放世界计数方法,通过明确指定计数对象的语义粒度(从具体实体到抽象概念),并利用自动合成数据集和视觉-语言模型,显著提升了在复杂场景下准确数出用户所指事物的能力。
在任何粒度下数任何东西 / Count Anything at Any Granularity
本文提出了一种新的多粒度开放世界计数方法,通过明确指定计数对象的语义粒度(从具体实体到抽象概念),并利用自动合成数据集和视觉-语言模型,显著提升了在复杂场景下准确数出用户所指事物的能力。
这真的算数吗?评估文本引导的类别无关计数中的语义基础 / Does it Really Count? Assessing Semantic Grounding in Text-Guided Class-Agnostic Counting
本文揭示了当前文本引导的类别无关计数模型在理解自然语言提示与视觉场景对应关系方面的严重缺陷,并提出了全新评估框架(包括测试套件PrACo++和数据集MUCCA),证明即使在标准计数指标上表现优异,这些模型也常常无法正确判断“该数什么”,从而降低了实际应用的可靠性。
工业检测中堆叠物体的自动化计数 / Automated Counting of Stacked Objects in Industrial Inspection
这篇论文提出了一种新的三维视觉计数方法,通过结合多视角图像重建堆叠物体的几何形状并分析其占用率,从而能准确清点工业场景中大量被遮挡的相同零件。
D2D:从检测器到可微分评论家以改进文本到图像生成中的数字准确性 / D2D: Detector-to-Differentiable Critic for Improved Numeracy in Text-to-Image Generation
这项研究提出了一种新方法,将原本无法直接用于梯度优化的目标检测模型转化为可微分的指导模块,从而显著提升了AI图像生成模型在生成正确数量物体方面的准确性,且不影响图像质量和计算效率。
请先 登录 后再提交论文