arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: TopoMamba: Topology-Aware Scanning and Fusion for Segmenting Heterogeneous Medical Visual Media 05-02

arXiv ID: 2604.19570

arXiv 提交日期: 2026-04-21

medical computer vision model training image segmentation rectified flow transformer efficient inference multi-scale

RF-HiT：用于通用医学图像分割的修正流层次化Transformer / RF-HiT: Rectified Flow Hierarchical Transformer for General Medical Image Segmentation

1️⃣ 一句话总结

本文提出了一种名为RF-HiT的高效医学图像分割模型，通过结合层次化Transformer和修正流技术，在保持低计算量和极少推理步数的同时，实现了与大型复杂模型相当的高精度分割性能，适合实时临床应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19159

arXiv 提交日期: 2026-04-21

computer vision model evaluation image quality assessment perceptual similarity multiscale representation deep features structural similarity

多尺度表示下的深度结构相似性 / MSDS: Deep Structural Similarity with Multiscale Representation

1️⃣ 一句话总结

本文提出了一种名为MSDS的方法，通过在多个空间尺度上分别计算深度结构相似性（DeepSSIM）并简单加权融合，显著提升了图像质量评估与人类视觉感知的匹配度，并证实了空间尺度在深度特征相似性建模中是不可忽视的关键因素。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19888

arXiv 提交日期: 2026-04-21

computer vision multi-modal machine learning gaze estimation driver monitoring transformer attention benchmark dataset point-of-gaze

SGAP-Gaze：基于场景网格注意力的驾驶员注视点估计网络 / SGAP-Gaze: Scene Grid Attention Based Point-of-Gaze Estimation Network for Driver Gaze

1️⃣ 一句话总结

该论文提出了一种结合驾驶员面部信息和周围交通场景图像的新型注视点估计模型SGAP-Gaze，通过引入基于Transformer的场景网格注意力机制，将视觉线索与场景上下文融合，在真实驾驶环境下显著提升了注视点预测的精度，特别是在场景边缘区域也有更好的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19999

arXiv 提交日期: 2026-04-21

computer vision machine learning model training uav detection data augmentation lightweight model real-time context-aware

优化数据增强以实现实时小型无人机检测：一种轻量级上下文感知方法 / Optimizing Data Augmentation for Real-Time Small UAV Detection: A Lightweight Context-Aware Approach

1️⃣ 一句话总结

本文提出了一种轻量级且上下文感知的数据增强方法（结合Mosaic策略和HSV颜色调整），在不增加计算负担的前提下，显著提升了YOLOv11 Nano等小型模型对小型无人机的检测精度与抗干扰能力，避免了传统增强方法（如Copy-Paste）带来的伪影和过拟合问题，并在雾天等复杂环境下仍能保持稳健性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19748

arXiv 提交日期: 2026-04-21

computer vision aigc multi-modal virtual try-on image generation garment preservation real-time inference benchmark

Tstars-Tryon 1.0：面向多样化时尚单品的鲁棒且逼真的虚拟试穿系统 / Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

1️⃣ 一句话总结

本文提出了一套商业级的虚拟试穿系统Tstars-Tryon 1.0，通过优化模型架构、数据处理和推理速度，能够处理复杂真实场景（如极端姿势、光线变化），实现高保真度的服装细节还原，并支持多种时尚品类和多人组合搭配，已在淘宝App大规模部署并服务千万用户。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19238

arXiv 提交日期: 2026-04-21

computer vision generative models super-resolution real-world sr one-step generation flow-based model trajectory rectification

AlloSR²：通过异形生成流修正一步超分辨率以保持真实 / Allo{SR}$^2$: Rectifying One-Step Super-Resolution to Stay Real via Allomorphic Generative Flows

1️⃣ 一句话总结

本文提出了一种名为AlloSR²的新框架，通过引入信噪比引导的轨迹初始化、流锚定轨迹一致性和异形轨迹匹配三种技术，有效解决了单步图像超分辨率中模型因过度拟合退化而丢失生成多样性、以及一步生成时轨迹偏移导致伪影的问题，在保持极高效率的同时实现了更真实的图像还原效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19702

arXiv 提交日期: 2026-04-21

computer vision multi-modal 4d face reconstruction dynamic tracking canonical coordinates depth estimation transformer

任意面孔：从任意图像序列实现4D人脸重建 / Face Anything: 4D Face Reconstruction from Any Image Sequence

1️⃣ 一句话总结

本文提出了一种统一的人脸4D重建方法，通过预测每个像素在标准人脸空间中的坐标，能够从任意图像序列中同时恢复高精度的三维形状、表情变化和密集跟踪，相比现有方法将对应误差降低约3倍、深度精度提升16%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19314

arXiv 提交日期: 2026-04-21

computer vision blind image deblurring minimax concave penalty total variation regularization image restoration sparsity

基于小波框架与极小极大凹正则化的盲图像恢复 / Framelet-Based Blind Image Restoration with Minimax Concave Regularization

1️⃣ 一句话总结

本文提出一种新的盲图像去模糊方法，通过引入极小极大凹罚函数（MCP）来更精确地逼近稀疏约束，同时结合重加权ℓ₁范数正则化，从而在未知模糊核的情况下，更好地恢复图像边缘和细节纹理，并解决了传统ℓ₀范数带来的计算困难问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.18961

arXiv 提交日期: 2026-04-21

robotics machine learning computer vision continuum manipulators hybrid vision/force control sliding mode control neural network visual servoing

基于AI的图像混合视觉/力控制：肌腱驱动空中连续体机械臂 / AI-Enabled Image-Based Hybrid Vision/Force Control of Tendon-Driven Aerial Continuum Manipulators

1️⃣ 一句话总结

本文提出了一种结合人工智能的混合视觉与力控制框架，使带有柔性机械臂的飞行机器人能够自主与静态环境交互，通过神经网络在线学习图像和力传感器的不确定性，无需离线训练，并在接触任务中同时稳定视觉特征和期望接触力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19673

arXiv 提交日期: 2026-04-21

computer vision 3d data human-scene interaction dataset generation foundation models smpl-x 3d reconstruction

InHabit：利用图像基础模型实现可扩展的3D人物放置 / InHabit: Leveraging Image Foundation Models for Scalable 3D Human Placement

1️⃣ 一句话总结

本文提出一种名为InHabit的全自动数据生成方法，通过利用2D视觉语言模型和图像编辑模型的常识知识，将人物自然地放入3D场景中，从而大规模创建带有逼真人物交互的3D数据集，显著提升了3D人物场景重建和接触估计的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.19570

1️⃣ 一句话总结

arXiv ID: 2604.19159

1️⃣ 一句话总结

arXiv ID: 2604.19888

1️⃣ 一句话总结

arXiv ID: 2604.19999

1️⃣ 一句话总结

arXiv ID: 2604.19748

1️⃣ 一句话总结

arXiv ID: 2604.19238

1️⃣ 一句话总结

arXiv ID: 2604.19702

1️⃣ 一句话总结

arXiv ID: 2604.19314

1️⃣ 一句话总结

arXiv ID: 2604.18961

1️⃣ 一句话总结

arXiv ID: 2604.19673

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.19570 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19159 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19888 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19999 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19748 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19238 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19702 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19314 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.18961 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19673 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.19570

arXiv ID: 2604.19159

arXiv ID: 2604.19888

arXiv ID: 2604.19999

arXiv ID: 2604.19748

arXiv ID: 2604.19238

arXiv ID: 2604.19702

arXiv ID: 2604.19314

arXiv ID: 2604.18961

arXiv ID: 2604.19673