arXiv最新AI论文速览速学

🔍

标签: #open-vocabulary ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Example-Based Object Detection 05-10

arXiv ID: 2605.04501

arXiv 提交日期: 2026-05-06

computer vision model evaluation object detection open-vocabulary false positive false negative example-based

基于示例的目标检测 / Example-Based Object Detection

1️⃣ 一句话总结

本文提出了一种名为EBOD的新方法，通过结合现有先进的目标检测模型和特征匹配技术，在无需重新训练模型的情况下，利用之前的错误检测样例来防止相同错误再次发生，从而提升了目标检测的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24002

arXiv 提交日期: 2026-04-27

robotics computer vision llm intention recognition video-language models human-robot interaction forward-inverse modeling open-vocabulary

IntentVLM：通过视频-语言模型的前向-逆向建模实现开放词汇意图识别 / IntentVLM: Open-Vocabulary Intention Recognition through Forward-Inverse Modeling with Video-Language Models

1️⃣ 一句话总结

该论文提出了一种名为IntentVLM的视频-语言框架，通过模拟人类认知中的“先设想目标、再反向推理”的两步过程，让机器人能更准确地理解人类在视频中表达的复杂意图，并在多个测试中达到接近人类的水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24575

arXiv 提交日期: 2026-04-27

computer vision multi-modal machine learning diffusion model semantic segmentation open-vocabulary generalist learner cross-domain transfer

扩散模型作为通用分割学习器 / Diffusion Model as a Generalist Segmentation Learner

1️⃣ 一句话总结

本文提出DiGSeg框架，利用预训练扩散模型的去噪过程作为通用分割工具，通过将图像和掩码编码为条件信号并结合文本特征，在无需领域定制的情况下，在语义分割、开放词汇分割以及医疗、遥感等跨领域任务中均达到领先性能，从而将扩散模型从图像生成器转变为多功能视觉理解器。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24718

arXiv 提交日期: 2026-04-27

computer vision data multi-modal 3d detection drone video wildlife monitoring open-vocabulary instance segmentation

WildLIFT：将单无人机视频提升至三维空间以实现物种无关的野生动物监测 / WildLIFT: Lifting monocular drone video to 3D for species-agnostic wildlife monitoring

1️⃣ 一句话总结

WildLIFT提出了一种新方法，能够从普通的无人机单摄像头视频中自动构建三维场景，并结合智能识别技术，在不依赖特定物种信息的情况下，对多种野生动物的位置和运动进行三维检测与追踪，从而大幅减少人工标注工作，为生态研究和种群监测提供更丰富的立体数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.24146

arXiv 提交日期: 2026-03-25

computer vision multi-modal systems 3d scene understanding open-vocabulary semantic segmentation gaussian splatting efficient inference

LightSplat：五秒内实现快速且内存高效的开放词汇3D场景理解 / LightSplat: Fast and Memory-Efficient Open-Vocabulary 3D Scene Understanding in Five Seconds

1️⃣ 一句话总结

这篇论文提出了一种名为LightSplat的新方法，它通过向3D模型中注入简洁的语义索引并采用高效的单步聚类，实现了无需训练、速度快、内存占用极低的开放词汇3D场景分割，让用户能用自然语言快速识别复杂3D环境中的新物体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.21528

arXiv 提交日期: 2026-03-23

computer vision natural language processing multi-modal semantic segmentation open-vocabulary training-free cross-modal alignment graph propagation

PEARL：几何对齐语义，实现免训练开放词汇语义分割 / PEARL: Geometry Aligns Semantics for Training-Free Open-Vocabulary Semantic Segmentation

1️⃣ 一句话总结

这篇论文提出了一种名为PEARL的免训练新方法，它通过几何对齐和文本引导的图传播两个简单步骤，高效地将图像中的物体分割出来并识别为任意文本描述的类别，无需额外训练数据或复杂模型，性能达到了当前最佳水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.16463

arXiv 提交日期: 2026-03-17

multi-modal natural language processing model training emotion recognition multimodal reasoning reinforcement learning evidence synthesis open-vocabulary

循迹求真：开放词汇多模态情感识别中的混合证据演绎推理 / Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition

1️⃣ 一句话总结

这篇论文提出了一种名为HyDRA的新方法，它通过一个‘提出-验证-决策’的推理框架，结合强化学习来整合多模态线索，从而更准确、可解释地识别开放词汇下的复杂情感，尤其在信息模糊或冲突的场景中表现突出。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08131

arXiv 提交日期: 2026-03-09

computer vision multi-modal robotics 3d visual grounding scene parsing zero-shot open-vocabulary embodied ai

UniGround：通过免训练场景解析实现通用3D视觉定位 / UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

1️⃣ 一句话总结

这篇论文提出了一种名为UniGround的新方法，它无需额外训练，仅通过视觉和几何推理就能在复杂的三维场景中，根据自然语言描述精准定位任何物体，突破了以往依赖预训练模型的知识局限，在开放世界场景中展现出强大的泛化能力和鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03815

arXiv 提交日期: 2026-03-04

natural language processing computer vision multi-modal zero-shot learning prompt tuning open-vocabulary compositional reasoning embedding structure

面向开放词汇组合式零样本学习的结构感知提示自适应方法：从可见到未见 / Structure-aware Prompt Adaptation from Seen to Unseen for Open-Vocabulary Compositional Zero-Shot Learning

1️⃣ 一句话总结

这篇论文提出了一种名为SPA的结构感知提示自适应方法，它通过保持和利用语义概念在嵌入空间中的局部结构一致性，让AI模型能够像人类一样，通过已知的‘湿’和‘衬衫’等概念，来理解和识别未知的‘潮湿’和‘夹克’等新概念及其组合，从而显著提升了开放词汇场景下的组合式零样本学习性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15734

arXiv 提交日期: 2026-02-17

computer vision multi-modal systems 3d scene understanding open-vocabulary voxel representation geometric distillation feature fields

基于语言与几何的稀疏体素表征用于整体场景理解 / Language and Geometry Grounded Sparse Voxel Representations for Holistic Scene Understanding

1️⃣ 一句话总结

这项研究提出了一种新方法，通过结合语言和几何信息，在一个统一的框架内同时建模3D场景的外观、语义和几何结构，从而实现了比现有技术更优的整体场景理解和重建效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.04501

1️⃣ 一句话总结

arXiv ID: 2604.24002

1️⃣ 一句话总结

arXiv ID: 2604.24575

1️⃣ 一句话总结

arXiv ID: 2604.24718

1️⃣ 一句话总结

arXiv ID: 2603.24146

1️⃣ 一句话总结

arXiv ID: 2603.21528

1️⃣ 一句话总结

arXiv ID: 2603.16463

1️⃣ 一句话总结

arXiv ID: 2603.08131

1️⃣ 一句话总结

arXiv ID: 2603.03815

1️⃣ 一句话总结

arXiv ID: 2602.15734

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.04501 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24002 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24575 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24718 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.24146 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.21528 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.16463 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08131 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03815 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15734 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.04501

arXiv ID: 2604.24002

arXiv ID: 2604.24575

arXiv ID: 2604.24718

arXiv ID: 2603.24146

arXiv ID: 2603.21528

arXiv ID: 2603.16463

arXiv ID: 2603.08131

arXiv ID: 2603.03815

arXiv ID: 2602.15734