arXiv最新AI论文速览速学

🔍

标签: #object detection ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Democratising Camera Trap AI: An Open-Source Model for Detecting UK Mammals 06-10

arXiv ID: 2606.10940

arXiv 提交日期: 2026-06-09

computer vision machine learning biology object detection camera trap biodiversity monitoring open-source model uk mammals

推动相机陷阱AI的民主化：一款用于检测英国哺乳动物的开源模型 / Democratising Camera Trap AI: An Open-Source Model for Detecting UK Mammals

1️⃣ 一句话总结

本文发布了一款针对英国常见哺乳动物和鸟类的开源AI检测模型，该模型基于48,165张标注图片训练，在测试集上达到99%以上的准确率，旨在帮助生态学家免费、便捷地分析相机陷阱图像，打破昂贵商业工具的垄断。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.10769

arXiv 提交日期: 2026-06-09

computer vision data model evaluation remote sensing object detection instance segmentation training-free aerial imagery

零训练导向的遥感目标检测与分割方法 / ZODS-RS -- Zero-training Oriented Detection & Segmentation for Remote Sensing

1️⃣ 一句话总结

该论文提出了一种无需任何训练即可同时完成遥感图像中水平框检测和实例分割的统一方法ZODS-RS，通过结合DINOv3特征与SAM提案，并设计旋转尺度适配、原型纯化等算法，在飞机、舰船等小目标密集场景及不同数据集下均取得了显著优于现有零训练方法的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.04345

arXiv 提交日期: 2026-06-03

computer vision systems machine learning object detection hypergraph learning yolo iot contextual understanding

HYolo：一种基于超图学习的智能物联网目标检测系统 / HYolo: An Intelligent IoT-Based Object Detection System Using Hypergraph Learning

1️⃣ 一句话总结

本文提出了一种名为HYolo的智能物联网目标检测框架，通过将超图学习融入YOLO架构，解决了传统模型难以捕捉物体间复杂高阶关系的问题，在COCO数据集上的实验显示其平均检测精度（mAP@50）提升了约12%，从而实现更可靠、更懂上下文的物体检测。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.27365

arXiv 提交日期: 2026-05-26

computer vision multi-modal model evaluation visual grounding object detection parallel decoding vision-language model large-scale dataset

LocateAnything：基于并行框解码的快速高质量视觉语言定位框架 / LocateAnything: Fast and High-Quality Vision-Language Grounding with Parallel Box Decoding

1️⃣ 一句话总结

本文提出LocateAnything框架，通过将边界框的几何元素作为一个整体并行解码，替代了传统逐令牌生成的方式，从而在保持高定位精度的同时大幅提升推理速度，并借助1.38亿样本的大规模数据集进一步强化了模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.25860

arXiv 提交日期: 2026-05-25

computer vision agriculture multi-modal object detection yolo sam3 knowledge distillation edge computing

基于SAM3辅助训练的轻量级YOLO模型用于精准养猪业 / SAM3-Assisted Training of Lightweight YOLO Models for Precision Pig Farming

1️⃣ 一句话总结

本文提出一种自动化知识蒸馏方法，利用大型基础模型SAM3自动生成标注数据，无需人工标注即可训练轻量级YOLOv8检测模型，在精准养猪场景下实现接近人工标注的性能，同时推理速度提升约200倍，为资源受限的边缘设备部署提供了可行方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.19837

arXiv 提交日期: 2026-05-19

computer vision autonomous driving adverse weather object detection dual-stream condition-adaptive zero-shot classification

CADENet：面向自动驾驶恶劣天气感知的自适应条件异步双流增强网络 / CADENet: Condition-Adaptive Asynchronous Dual-Stream Enhancement Network for Adverse Weather Perception in Autonomous Driving

1️⃣ 一句话总结

该论文提出一种无需训练的异步双流增强网络CADENet，通过并行执行原始视频检测、条件自适应图像增强和零样本天气分类，在保证实时性（约44 FPS）的同时，改善了自动驾驶在雨、雪、雾、沙尘等恶劣天气下的物体检测效果，并指出传统标注数据存在“不可见物体”偏差，因此召回率比F1值更能反映实际提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.13621

arXiv 提交日期: 2026-05-13

computer vision multi-modal object detection infrared-visible fusion frequency decomposition transformer query learning

基于小波分解与频率感知查询学习的多光谱检测Transformer / WD-FQDet: Multispectral Detection Transformer via Wavelet Decomposition and Frequency-aware Query Learning

1️⃣ 一句话总结

这篇论文提出了一种新的多光谱目标检测框架，通过将红外和可见光图像分解为低频和高频信息，分别对齐共享特征和保留独有特征，并利用频率感知机制动态调整两者在检测中的贡献，从而显著提升了复杂场景下的检测精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.13140

arXiv 提交日期: 2026-05-13

computer vision multi-modal domain adaptation object detection multi-source depth-guided prompt learning

多模态引导的多源域自适应目标检测 / Multi-Modal Guided Multi-Source Domain Adaptation for Object Detection

1️⃣ 一句话总结

本文提出一种名为MS-DePro的新方法，通过引入深度图和文本提示两种不依赖数据源类型的通用信息，分别辅助目标检测中的定位和分类任务，从而让目标检测器能更有效地从多个不同来源的数据中学习，并在新场景下取得最佳性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.04501

arXiv 提交日期: 2026-05-06

computer vision model evaluation object detection open-vocabulary false positive false negative example-based

基于示例的目标检测 / Example-Based Object Detection

1️⃣ 一句话总结

本文提出了一种名为EBOD的新方法，通过结合现有先进的目标检测模型和特征匹配技术，在无需重新训练模型的情况下，利用之前的错误检测样例来防止相同错误再次发生，从而提升了目标检测的可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.02169

arXiv 提交日期: 2026-05-04

computer vision systems machine learning object detection domain adaptation privacy preservation federated learning diffusion model

基于合成域适应的异构模型融合方法用于隐私感知多摄像头监控 / Heterogeneous Model Fusion for Privacy-Aware Multi-Camera Surveillance via Synthetic Domain Adaptation

1️⃣ 一句话总结

本文提出了一种名为HeroCrystal的隐私保护框架，通过结合扩散模型生成样本、联邦学习协作训练和知识蒸馏解决类别不平衡问题，使多个摄像头在无需共享原始数据且使用不同模型架构的情况下，仍能协同提升目标检测精度，并在多个测试中实现了最优性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.10940

1️⃣ 一句话总结

arXiv ID: 2606.10769

1️⃣ 一句话总结

arXiv ID: 2606.04345

1️⃣ 一句话总结

arXiv ID: 2605.27365

1️⃣ 一句话总结

arXiv ID: 2605.25860

1️⃣ 一句话总结

arXiv ID: 2605.19837

1️⃣ 一句话总结

arXiv ID: 2605.13621

1️⃣ 一句话总结

arXiv ID: 2605.13140

1️⃣ 一句话总结

arXiv ID: 2605.04501

1️⃣ 一句话总结

arXiv ID: 2605.02169

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.10940 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.10769 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.04345 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.27365 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.25860 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.19837 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.13621 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.13140 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.04501 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.02169 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.10940

arXiv ID: 2606.10769

arXiv ID: 2606.04345

arXiv ID: 2605.27365

arXiv ID: 2605.25860

arXiv ID: 2605.19837

arXiv ID: 2605.13621

arXiv ID: 2605.13140

arXiv ID: 2605.04501

arXiv ID: 2605.02169