arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 77 72小时内新更新论文 72h更新 177 最新: MixerCA: An Efficient and Accurate Model for High-Performance Hyperspectral Image Classification 05-03

arXiv ID: 2604.19233

arXiv 提交日期: 2026-04-21

computer vision model training small object detection adaptive slicing high-resolution imagery inference optimization aerial imagery

自适应切片辅助超推理：面向高分辨率影像中增强小目标检测的方法 / Adaptive Slicing-Assisted Hyper Inference for Enhanced Small Object Detection in High-Resolution Imagery

1️⃣ 一句话总结

本文提出一种自适应切片框架（ASAHI），能根据图像分辨率动态决定切片数量，在减少冗余计算的同时提升高分辨率遥感图像中小目标检测的精度和速度，并在两个公开数据集上取得最优结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19135

arXiv 提交日期: 2026-04-21

computer vision multi-modal machine learning diffusion models zero-shot retrieval sketch-based 3d retrieval clip cross-modal alignment

扩散模型驱动的多模态特征增强：零样本手绘草图三维形状检索 / Diff-SBSR: Learning Multimodal Feature-Enhanced Diffusion Models for Zero-Shot Sketch-Based 3D Shape Retrieval

1️⃣ 一句话总结

本文首次利用预训练的文本-图像扩散模型，通过引入CLIP视觉和文本特征增强，解决了零样本场景下用手绘草图检索三维形状的难题，显著提升了检索精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18267

arXiv 提交日期: 2026-04-20

computer vision machine learning model training semantic correspondence keypoint matching self-distillation generalization

MARCO：在语义对应的未知空间中导航 / MARCO: Navigating the Unseen Space of Semantic Correspondence

1️⃣ 一句话总结

本文提出了一种名为MARCO的轻量级模型，通过结合从粗到细的空间定位和自蒸馏训练框架，仅用少量标注关键点就能生成密集且语义一致的图像对应关系，在多个基准测试中显著超越现有方法，同时模型大小和推理速度分别只有扩散方法的1/3和10倍，尤其擅长处理训练中未见过的关键点和物体类别。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.17818

arXiv 提交日期: 2026-04-20

computer vision 3d human motion multi-modal human-object interaction motion reconstruction 2d diffusion hoi recovery internet videos

AnyLift：通过二维扩散模型从互联网视频中扩展运动重建 / AnyLift: Scaling Motion Reconstruction from Internet Videos via 2D Diffusion

1️⃣ 一句话总结

本文提出一个两阶段框架，利用二维扩散模型从互联网视频中重建三维人体运动和人与物体交互，特别擅长处理传统动作捕捉数据中缺乏的复杂运动（如体操）和自然场景中的交互行为，显著提升了重建结果的真实性和全局一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18721

arXiv 提交日期: 2026-04-20

computer vision model evaluation machine learning benchmark visual state-space models semantic segmentation remote sensing domain shift

面向遥感分割的视觉状态空间骨干网络受控基准测试：领域偏移与边界分析 / A Controlled Benchmark of Visual State-Space Backbones with Domain-Shift and Boundary Analysis for Remote-Sensing Segmentation

1️⃣ 一句话总结

本文构建了一个严格控制的基准实验，在统一解码器下比较多种视觉状态空间模型（如VMamba）在遥感图像分割中的表现，发现此类模型在精度和效率间取得了良好平衡，但面对不同数据分布时边界分割成为主要瓶颈，未来提升应更关注鲁棒性设计和边界感知解码，而非单纯扩大模型规模。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18713

arXiv 提交日期: 2026-04-20

medical multi-modal computer vision prostate lesion segmentation vision-language models cross-modal fusion u-net architecture

先对齐后细化：文本引导的前列腺病灶三维分割 / Align then Refine: Text-Guided 3D Prostate Lesion Segmentation

1️⃣ 一句话总结

本文提出了一种结合文本与影像信息的前列腺病灶三维分割方法，通过先让模型学习病灶区域与文字描述的对齐，再对高置信区域进行精细化边缘修正，显著提升了分割精度，并在公开数据集上达到了最佳效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18747

arXiv 提交日期: 2026-04-20

computer vision multi-modal positional encoding geometric reasoning 3d understanding cross-view matching transformer

URoPE：跨几何空间的通用相对位置嵌入 / URoPE: Universal Relative Position Embedding across Geometric Spaces

1️⃣ 一句话总结

这篇论文提出了一种名为URoPE的新型位置编码方法，它能让Transformer模型在二维图像、三维空间以及不同相机视角之间灵活理解物体的相对位置关系，从而在三维物体检测、深度估计等计算机视觉任务中显著提升性能，且无需额外参数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18289

arXiv 提交日期: 2026-04-20

robotics computer vision agents event camera state estimation uav swarms propeller sensing relative localization

基于事件相机螺旋桨感知的相对状态估计 / Relative State Estimation using Event-Based Propeller Sensing

1️⃣ 一句话总结

本文提出了一种利用事件相机捕捉无人机螺旋桨运动的新方法，通过实时检测和跟踪螺旋桨频率来精确估计四旋翼飞行器的相对位置和姿态，从而在复杂视觉环境下实现多无人机集群的快速、分散式定位。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18853

arXiv 提交日期: 2026-04-20

computer vision model training polarimetric sar image classification dual-domain feature fusion coordinate attention lightweight model

DDF2Pol：一种用于极化SAR图像分类的双域特征融合网络 / DDF2Pol: A Dual-Domain Feature Fusion Network for PolSAR Image Classification

1️⃣ 一句话总结

本文提出了一种轻量级的双域卷积神经网络DDF2Pol，它通过并行提取实数域和复数域特征，并结合注意力机制，在仅需少量参数的情况下，高效实现了高精度的极化雷达图像分类。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.17865

arXiv 提交日期: 2026-04-20

medical computer vision model training polyp segmentation knowledge distillation boundary guidance lightweight model foundation model

面向通用息肉分割的轻量化模型锐化：基于基础模型的边界引导蒸馏方法 / Sharpening Lightweight Models for Generalized Polyp Segmentation: A Boundary Guided Distillation from Foundation Models

1️⃣ 一句话总结

本文提出一种名为LiteBounD的轻量化框架，通过从多个大型视觉基础模型中提取语义和边界知识，并采用频率感知对齐策略，使轻量级分割模型在保持实时运行效率的同时，显著提升在息肉分割任务上的精度和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.19233

1️⃣ 一句话总结

arXiv ID: 2604.19135

1️⃣ 一句话总结

arXiv ID: 2604.18267

1️⃣ 一句话总结

arXiv ID: 2604.17818

1️⃣ 一句话总结

arXiv ID: 2604.18721

1️⃣ 一句话总结

arXiv ID: 2604.18713

1️⃣ 一句话总结

arXiv ID: 2604.18747

1️⃣ 一句话总结

arXiv ID: 2604.18289

1️⃣ 一句话总结

arXiv ID: 2604.18853

1️⃣ 一句话总结

arXiv ID: 2604.17865

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.19233 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19135 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18267 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.17818 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18721 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18713 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18747 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18289 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18853 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.17865 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.19233

arXiv ID: 2604.19135

arXiv ID: 2604.18267

arXiv ID: 2604.17818

arXiv ID: 2604.18721

arXiv ID: 2604.18713

arXiv ID: 2604.18747

arXiv ID: 2604.18289

arXiv ID: 2604.18853

arXiv ID: 2604.17865