arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 38 72小时内新更新论文 72h更新 127 最新: MixerCA: An Efficient and Accurate Model for High-Performance Hyperspectral Image Classification 05-03

arXiv ID: 2604.13367

arXiv 提交日期: 2026-04-15

medical computer vision model training medical image segmentation 3d segmentation sam adaptation prompt engineering limited data

一种基于3D SAM的渐进式提示框架：用于有限数据场景下放疗所致正常组织损伤的多任务分割 / A 3D SAM-Based Progressive Prompting Framework for Multi-Task Segmentation of Radiotherapy-induced Normal Tissue Injuries in Limited-Data Settings

1️⃣ 一句话总结

这项研究提出了一种新的智能医学图像分割方法，它通过结合文本、剂量引导框和点击三种提示，在数据有限的情况下，也能准确识别和勾画放疗后头部和颈部出现的多种正常组织损伤区域，帮助医生更好地评估和治疗。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14048

arXiv 提交日期: 2026-04-15

computer vision model training model evaluation 3d reconstruction self-supervised learning test-time adaptation multi-view consistency lora fine-tuning

自由几何：从自身更长版本中优化三维重建 / Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

1️⃣ 一句话总结

这篇论文提出了一种名为‘自由几何’的新方法，能让现成的三维重建AI模型在遇到新场景时，通过观察更多角度的图像来自我学习和快速调整，从而显著提升重建的准确性和稳定性，整个过程无需额外的三维数据标注。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13448

arXiv 提交日期: 2026-04-15

computer vision model evaluation benchmark human-object interaction failure analysis two-stage detection scene understanding model limitations

两阶段人-物交互检测中的失败模式研究 / A Study of Failure Modes in Two-Stage Human-Object Interaction Detection

1️⃣ 一句话总结

这篇论文通过分析两阶段人-物交互检测模型在复杂场景（如多人互动和罕见交互组合）中的具体失败模式，揭示了高整体性能并不等同于模型具备稳健的视觉推理能力，为理解模型局限性和未来研究提供了新视角。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13695

arXiv 提交日期: 2026-04-15

medical model evaluation computer vision interpretability explainable ai medical imaging classifier activation matching model faithfulness

Med-CAM：用于解释医疗决策的最小证据 / Med-CAM: Minimal Evidence for Explaining Medical Decision Making

1️⃣ 一句话总结

这篇论文提出了一个名为Med-CAM的新框架，它通过训练一个分割网络来生成清晰、紧凑的视觉证据图，从而直观地解释医疗AI模型做出诊断决策的关键依据，解决了现有方法解释模糊的问题，旨在提升临床医生对AI的信任。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13795

arXiv 提交日期: 2026-04-15

medical computer vision model training vision transformer weakly supervised learning lymphoma diagnosis pathology whole-slide image

基于弱监督训练与Vision Transformer的人工智能在淋巴瘤诊断中的应用 / Artificial intelligence application in lymphoma diagnosis with Vision Transformer using weakly supervised training

1️⃣ 一句话总结

本研究提出了一种使用弱监督训练方法训练的Vision Transformer模型，能够以高准确度自动区分两种淋巴瘤亚型，为临床病理诊断提供了一种更实用的人工智能辅助工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12270

arXiv 提交日期: 2026-04-14

computer vision video model training stereo inpainting video processing diffusion models real-time occlusion handling

DreamStereo：面向高清视频的实时立体图像修复 / DreamStereo: Towards Real-Time Stereo Inpainting for HD Videos

1️⃣ 一句话总结

这篇论文提出了一种名为DreamStereo的新方法，通过创新的梯度感知视差扭曲和稀疏感知的修复技术，解决了立体视频修复中数据稀缺和计算冗余两大难题，首次实现了在单个A100 GPU上以25帧/秒的速度实时处理高清立体视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12341

arXiv 提交日期: 2026-04-14

computer vision model evaluation multi-modal image forensics manipulation localization frequency analysis semantic alignment diffusion detection

弥合微观-宏观鸿沟：用于图像篡改定位的频率感知语义对齐方法 / Bridging the Micro--Macro Gap: Frequency-Aware Semantic Alignment for Image Manipulation Localization

1️⃣ 一句话总结

这篇论文提出了一个名为FASA的统一框架，通过结合图像的低频/高频篡改痕迹和高级语义信息，有效定位了传统修图工具和新兴AI扩散模型生成的各种图像篡改区域。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13019

arXiv 提交日期: 2026-04-14

agents computer vision systems gui grounding visual feedback iterative refinement cursor localization coding environments

看、指、精调：基于视觉反馈的多轮图形用户界面定位方法 / See, Point, Refine: Multi-Turn Approach to GUI Grounding with Visual Feedback

1️⃣ 一句话总结

这篇论文提出了一种让AI助手在复杂编程界面中更精准点击目标的新方法，它通过‘观察-点击-根据视觉反馈调整’的多轮循环来逐步修正误差，而不是一次性猜测位置，从而显著提升了在密集代码编辑器等环境中的操作成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13244

arXiv 提交日期: 2026-04-14

computer vision benchmark systems maritime vision real-time systems challenge evaluation dataset embedded vision

第四届海上计算机视觉研讨会（MaCVi）：挑战赛概述 / 4th Workshop on Maritime Computer Vision (MaCVi): Challenge Overview

1️⃣ 一句话总结

这篇论文概述了CVPR 2026上举办的第四届海上计算机视觉研讨会的挑战赛情况，重点介绍了五个兼顾预测精度与嵌入式实时可行性的基准挑战，并总结了其设置、结果和顶尖团队的技术经验。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12159

arXiv 提交日期: 2026-04-14

computer vision multi-modal systems video geolocalization gps retrieval temporal alignment dual-encoder self-supervised learning

VidTAG：基于去噪序列预测的全球尺度时间对齐视频到GPS地理定位 / VidTAG: Temporally Aligned Video to GPS Geolocalization with Denoising Sequence Prediction at a Global Scale

1️⃣ 一句话总结

这篇论文提出了一个名为VidTAG的新方法，它通过结合自监督和语言对齐特征，并引入专门模块来处理视频帧的时间对齐问题，从而能够更精确、更一致地从视频中推断出拍摄地点的GPS坐标和运动轨迹，在全球范围内实现了比现有方法更优的细粒度视频地理定位。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.13367

1️⃣ 一句话总结

arXiv ID: 2604.14048

1️⃣ 一句话总结

arXiv ID: 2604.13448

1️⃣ 一句话总结

arXiv ID: 2604.13695

1️⃣ 一句话总结

arXiv ID: 2604.13795

1️⃣ 一句话总结

arXiv ID: 2604.12270

1️⃣ 一句话总结

arXiv ID: 2604.12341

1️⃣ 一句话总结

arXiv ID: 2604.13019

1️⃣ 一句话总结

arXiv ID: 2604.13244

1️⃣ 一句话总结

arXiv ID: 2604.12159

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.13367 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14048 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13448 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13695 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13795 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12270 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12341 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13019 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13244 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12159 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.13367

arXiv ID: 2604.14048

arXiv ID: 2604.13448

arXiv ID: 2604.13695

arXiv ID: 2604.13795

arXiv ID: 2604.12270

arXiv ID: 2604.12341

arXiv ID: 2604.13019

arXiv ID: 2604.13244

arXiv ID: 2604.12159