arXiv ID:
2605.04501
基于示例的目标检测 / Example-Based Object Detection
1️⃣ 一句话总结
本文提出了一种名为EBOD的新方法,通过结合现有先进的目标检测模型和特征匹配技术,在无需重新训练模型的情况下,利用之前的错误检测样例来防止相同错误再次发生,从而提升了目标检测的可靠性。
基于示例的目标检测 / Example-Based Object Detection
本文提出了一种名为EBOD的新方法,通过结合现有先进的目标检测模型和特征匹配技术,在无需重新训练模型的情况下,利用之前的错误检测样例来防止相同错误再次发生,从而提升了目标检测的可靠性。
IntentVLM:通过视频-语言模型的前向-逆向建模实现开放词汇意图识别 / IntentVLM: Open-Vocabulary Intention Recognition through Forward-Inverse Modeling with Video-Language Models
该论文提出了一种名为IntentVLM的视频-语言框架,通过模拟人类认知中的“先设想目标、再反向推理”的两步过程,让机器人能更准确地理解人类在视频中表达的复杂意图,并在多个测试中达到接近人类的水平。
扩散模型作为通用分割学习器 / Diffusion Model as a Generalist Segmentation Learner
本文提出DiGSeg框架,利用预训练扩散模型的去噪过程作为通用分割工具,通过将图像和掩码编码为条件信号并结合文本特征,在无需领域定制的情况下,在语义分割、开放词汇分割以及医疗、遥感等跨领域任务中均达到领先性能,从而将扩散模型从图像生成器转变为多功能视觉理解器。
WildLIFT:将单无人机视频提升至三维空间以实现物种无关的野生动物监测 / WildLIFT: Lifting monocular drone video to 3D for species-agnostic wildlife monitoring
WildLIFT提出了一种新方法,能够从普通的无人机单摄像头视频中自动构建三维场景,并结合智能识别技术,在不依赖特定物种信息的情况下,对多种野生动物的位置和运动进行三维检测与追踪,从而大幅减少人工标注工作,为生态研究和种群监测提供更丰富的立体数据。
LightSplat:五秒内实现快速且内存高效的开放词汇3D场景理解 / LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds
这篇论文提出了一种名为LightSplat的新方法,它通过向3D模型中注入简洁的语义索引并采用高效的单步聚类,实现了无需训练、速度快、内存占用极低的开放词汇3D场景分割,让用户能用自然语言快速识别复杂3D环境中的新物体。
PEARL:几何对齐语义,实现免训练开放词汇语义分割 / PEARL: Geometry Aligns Semantics for Training-Free Open-Vocabulary Semantic Segmentation
这篇论文提出了一种名为PEARL的免训练新方法,它通过几何对齐和文本引导的图传播两个简单步骤,高效地将图像中的物体分割出来并识别为任意文本描述的类别,无需额外训练数据或复杂模型,性能达到了当前最佳水平。
循迹求真:开放词汇多模态情感识别中的混合证据演绎推理 / Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition
这篇论文提出了一种名为HyDRA的新方法,它通过一个‘提出-验证-决策’的推理框架,结合强化学习来整合多模态线索,从而更准确、可解释地识别开放词汇下的复杂情感,尤其在信息模糊或冲突的场景中表现突出。
UniGround:通过免训练场景解析实现通用3D视觉定位 / UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing
这篇论文提出了一种名为UniGround的新方法,它无需额外训练,仅通过视觉和几何推理就能在复杂的三维场景中,根据自然语言描述精准定位任何物体,突破了以往依赖预训练模型的知识局限,在开放世界场景中展现出强大的泛化能力和鲁棒性。
面向开放词汇组合式零样本学习的结构感知提示自适应方法:从可见到未见 / Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning
这篇论文提出了一种名为SPA的结构感知提示自适应方法,它通过保持和利用语义概念在嵌入空间中的局部结构一致性,让AI模型能够像人类一样,通过已知的‘湿’和‘衬衫’等概念,来理解和识别未知的‘潮湿’和‘夹克’等新概念及其组合,从而显著提升了开放词汇场景下的组合式零样本学习性能。
基于语言与几何的稀疏体素表征用于整体场景理解 / Language and Geometry Grounded Sparse Voxel Representations for Holistic Scene Understanding
这项研究提出了一种新方法,通过结合语言和几何信息,在一个统一的框架内同时建模3D场景的外观、语义和几何结构,从而实现了比现有技术更优的整体场景理解和重建效果。
请先 登录 后再提交论文