Instance-level Visual Active Tracking with Occlusion-Aware Planning

📄 Abstract - Instance-level Visual Active Tracking with Occlusion-Aware Planning

Visual Active Tracking (VAT) aims to control cameras to follow a target in 3D space, which is critical for applications like drone navigation and security surveillance. However, it faces two key bottlenecks in real-world deployment: confusion from visually similar distractors caused by insufficient instance-level discrimination and severe failure under occlusions due to the absence of active planning. To address these, we propose OA-VAT, a unified pipeline with three complementary modules. First, a training-free Instance-Aware Offline Prototype Initialization aggregates multi-view augmented features via DINOv3 to construct discriminative instance prototypes, mitigating distractor confusion. Second, an Online Prototype Enhancement Tracker enhances prototypes online and integrates a confidence-aware Kalman filter for stable tracking under appearance and motion changes. Third, an Occlusion-Aware Trajectory Planner, trained on our new Planning-20k dataset, uses conditional diffusion to generate obstacle-avoiding paths for occlusion recovery. Experiments demonstrate OA-VAT achieves 0.93 average SR on UnrealCV (+2.2% vs. SOTA TrackVLA), 90.8% average CAR on real-world datasets (+12.1% vs. SOTA GC-VAT), and 81.6% TSR on a DJI Tello drone. Running at 35 FPS on an RTX 3090, it delivers robust, real-time performance for practical deployment.

具备遮挡感知规划的实例级视觉主动跟踪 / Instance-level Visual Active Tracking with Occlusion-Aware Planning

1️⃣ 一句话总结

本文提出了一种名为OA-VAT的视觉主动跟踪系统，通过结合实例感知原型构建、在线原型增强跟踪和遮挡感知轨迹规划三个模块，有效解决了目标被相似物体干扰以及被遮挡时跟踪失败的问题，在无人机和安防等实际场景中实现了稳定、实时的跟踪性能。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

获取最新论文摘要