arXiv最新AI论文速览速学

🔍

computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: TopoMamba: Topology-Aware Scanning and Fusion for Segmenting Heterogeneous Medical Visual Media 05-02

arXiv ID: 2604.21387

arXiv 提交日期: 2026-04-23

computer vision machine learning point cloud edge detection transformer local patch 3d geometry

EdgeFormer：基于局部补丁的点云边缘检测Transformer / EdgeFormer: local patch-based edge detection transformer on point clouds

1️⃣ 一句话总结

本文提出一种名为EdgeFormer的新型点云边缘检测方法，通过将整个点云拆解成多个局部小区域（局部补丁），并利用Transformer对这些补丁的特征进行分类，从而更精准地捕捉传统方法难以识别的细小边缘特征，实验表明其性能优于六种现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21324

arXiv 提交日期: 2026-04-23

computer vision machine learning person re-identification visible-infrared unsupervised learning temporal modeling contrastive learning

基于时间原型与分层对齐的无监督视频可见光-红外行人重识别 / Temporal Prototyping and Hierarchical Alignment for Unsupervised Video-based Visible-Infrared Person Re-Identification

1️⃣ 一句话总结

本文提出了一种无监督学习框架HiTPro，通过自动从视频片段中提取时间特征和构建分层原型，实现了在无人工标注的情况下，让计算机学会跨白天（可见光）和黑夜（红外）两种摄像头模式下的行人身份识别。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21311

arXiv 提交日期: 2026-04-23

medical computer vision vision transformer brain tumor classification mri interpretability attention rollout

一种可解释的视觉Transformer框架用于自动脑肿瘤分类 / an interpretable vision transformer framework for automated brain tumor classification

1️⃣ 一句话总结

本文提出了一种基于视觉Transformer的深度学习模型，用于自动将脑部MRI扫描图像分类为脑膜瘤、胶质瘤、垂体瘤或健康组织，并通过注意力可视化技术让医生能够理解模型判断的依据，最终达到了99%以上的分类准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21175

arXiv 提交日期: 2026-04-23

machine learning computer vision theory graph neural network max-flow image segmentation optimization pac-learnability

图神经网络驱动的预测流：加速福特-富克森算法及其PAC可学习性 / Graph Neural Network-Informed Predictive Flows for Faster Ford-Fulkerson and PAC-Learnability

1️⃣ 一句话总结

本研究提出一种结合图神经网络与经典福特-富克森算法的新方法，通过学习图中每条边的重要性概率来智能选择增广路径，从而在不影响最大流/最小割最优解的前提下显著加速计算，并提供了理论上保证学习效果与效率提升关系的PAC可学习性分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21931

arXiv 提交日期: 2026-04-23

computer vision video model training temporal reasoning self-supervised learning slow-motion video generation temporal super-resolution

快与慢的视觉：学习视频中的时间流动 / Seeing Fast and Slow: Learning the Flow of Time in Videos

1️⃣ 一句话总结

本文提出一种自监督学习方法，让AI能像人一样感知视频播放速度的变化，并进一步利用这些能力自动收集大规模慢动作视频数据，从而实现了可控播放速度的视频生成以及将模糊低帧率视频转化为高清慢动作的效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21627

arXiv 提交日期: 2026-04-23

computer vision systems face morphing diffusion model cross-attention identity verification attack detection

DCMorph：基于双流交叉注意力扩散的人脸变形方法 / DCMorph: Face Morphing via Dual-Stream Cross-Attention Diffusion

1️⃣ 一句话总结

本文提出了一种名为DCMorph的新型人脸变形攻击方法，通过双流扩散模型从两个源人脸的身份特征和潜在空间表示两个层面同时进行融合，生成更逼真、更难被检测的人脸图像，从而显著提高了对主流身份验证系统的攻击成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21360

arXiv 提交日期: 2026-04-23

machine learning computer vision test-time adaptation vision-language models prototype learning efficient inference image recognition

基于原型的视觉-语言模型测试时自适应方法 / Prototype-Based Test-Time Adaptation of Vision-Language Models

1️⃣ 一句话总结

为了克服现有测试时自适应方法（如缓存方法）在速度和准确性上的不足，本文提出了一种基于类知识原型的全新方法，它通过动态加权融合每个测试样本的特征来累积知识，无需缓存和检索，从而在保持极高推理速度的同时，在15个图像识别和4个点云分析任务上取得了最优性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21280

arXiv 提交日期: 2026-04-23

systems machine learning computer vision continual learning hyperdimensional computing fpga accelerator edge ai energy efficiency

ImageHD：基于超维度计算的节能设备端视觉表征持续学习系统 / ImageHD: Energy-Efficient On-Device Continual Learning of Visual Representations via Hyperdimensional Computing

1️⃣ 一句话总结

本文提出ImageHD，一种在FPGA上实现的超轻量级持续学习加速器，通过超维度计算和硬件协同设计，在资源有限的边缘设备上实现高效的视觉数据流式学习，相比CPU和GPU能效提升数百倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21453

arXiv 提交日期: 2026-04-23

computer vision robotics reinforcement learning visual active tracking occlusion-aware planning instance-level discrimination tracking drone navigation

具备遮挡感知规划的实例级视觉主动跟踪 / Instance-level Visual Active Tracking with Occlusion-Aware Planning

1️⃣ 一句话总结

本文提出了一种名为OA-VAT的视觉主动跟踪系统，通过结合实例感知原型构建、在线原型增强跟踪和遮挡感知轨迹规划三个模块，有效解决了目标被相似物体干扰以及被遮挡时跟踪失败的问题，在无人机和安防等实际场景中实现了稳定、实时的跟踪性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.21911

arXiv 提交日期: 2026-04-23

llm computer vision model evaluation hallucination benchmark preference optimization visual grounding fine-tuning

当提示覆盖视觉：大型视觉语言模型中由提示引发的幻觉 / When Prompts Override Vision: Prompt-Induced Hallucinations in LVLMs

1️⃣ 一句话总结

本文研究发现，大型视觉语言模型（LVLM）产生幻觉的主要原因并非视觉处理能力不足，而是过度依赖文本指令中的先验知识，并据此提出了新的评估基准HalluScope和基于偏好优化的微调框架HalluVL-DPO，有效减少了这类幻觉，同时保持了模型其他性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.21387

1️⃣ 一句话总结

arXiv ID: 2604.21324

1️⃣ 一句话总结

arXiv ID: 2604.21311

1️⃣ 一句话总结

arXiv ID: 2604.21175

1️⃣ 一句话总结

arXiv ID: 2604.21931

1️⃣ 一句话总结

arXiv ID: 2604.21627

1️⃣ 一句话总结

arXiv ID: 2604.21360

1️⃣ 一句话总结

arXiv ID: 2604.21280

1️⃣ 一句话总结

arXiv ID: 2604.21453

1️⃣ 一句话总结

arXiv ID: 2604.21911

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.21387 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21324 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21311 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21175 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21931 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21627 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21360 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21280 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21453 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.21911 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.21387

arXiv ID: 2604.21324

arXiv ID: 2604.21311

arXiv ID: 2604.21175

arXiv ID: 2604.21931

arXiv ID: 2604.21627

arXiv ID: 2604.21360

arXiv ID: 2604.21280

arXiv ID: 2604.21453

arXiv ID: 2604.21911