arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: TopoMamba: Topology-Aware Scanning and Fusion for Segmenting Heterogeneous Medical Visual Media 05-02

arXiv ID: 2604.24123

arXiv 提交日期: 2026-04-27

computer vision video model evaluation video quality assessment neural video codecs feature distance generalization subjective evaluation

FDIM：一种面向多种编解码器的基于特征距离的通用视频质量评价指标 / FDIM: A Feature-distance-based Generic Video Quality Metric for Versatile Codecs

1️⃣ 一句话总结

本文提出了一种名为FDIM的通用视频质量评价指标，通过结合深度学习提取的多尺度特征和人工设计的补充特征，能够同时准确评估传统视频编码和新兴神经视频编码对标准动态范围与高动态范围视频造成的失真，在多种测试集上表现优异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24187

arXiv 提交日期: 2026-04-27

computer vision medical multi-modal neural radiance field ultrasound reconstruction 3d imaging wide field-of-view anisotropic gaussians

宽视场超声重建的多变量高斯神经辐射场方法 / Multivariate Gaussian NeRF for Wide Field-of-View Ultrasound Reconstruction

1️⃣ 一句话总结

本文提出一种名为Ultra-Wide-NeRF的新方法，通过将多变量三维高斯分布和随深度变化的凸体积采样融入神经辐射场框架，有效解决了宽视场超声图像拼接中因分辨率变化导致的伪影和混叠问题，并能从任意虚拟视角生成逼真的连续组织图像，为术中导航提供更丰富的解剖空间信息。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24312

arXiv 提交日期: 2026-04-27

computer vision machine learning multi-view pose estimation algebraic priors uncalibrated cameras temporal coherence gröbner basis

基于代数先验的无约束多视角人体姿态估计 / Unconstrained Multi-view Human Pose Estimation with Algebraic Priors

1️⃣ 一句话总结

本文提出了一种无需相机标定的多视角3D人体姿态估计方法，通过结合深度学习、代数几何约束和时间信息，在保持高精度的同时大幅缩小了与传统需要精确标定的方法之间的性能差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24353

arXiv 提交日期: 2026-04-27

computer vision machine learning autonomous driving hd mapping lane detection transformer crowdsourced data topology estimation

基于注意力机制与HSV变换众包车辆轨迹数据的栅格化编码方法用于道路拓扑结构估计 / ARETE: Attention-based Rasterized Encoding for Topology Estimation using HSV-transformed Crowdsourced Vehicle Fleet Data

1️⃣ 一句话总结

本文提出了一种名为ARETE的新方法，通过将众包车辆轨迹转化为类似图像的颜色编码栅格图，再使用类似目标检测的注意力模型，自动提取出车道中心线和车道分割线，从而低成本、高精度地生成并更新自动驾驶所需的高清地图。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24493

arXiv 提交日期: 2026-04-27

computer vision aigc face swapping diffusion model identity preservation cross-attention facial generation

跨注意力引导的身份条件扩散模型实现身份一致的换脸 / CA-IDD: Cross-Attention Guided Identity-Conditional Diffusion for Identity-Consistent Face Swapping

1️⃣ 一句话总结

本文提出了一种名为CA-IDD的新型换脸方法，首次利用扩散模型结合多尺度跨注意力机制，将源人脸的身份特征精准迁移到目标人脸上，同时保留目标的表情、姿势和背景，在保持身份一致性和图像真实感方面超越了传统的GAN方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24763

arXiv 提交日期: 2026-04-27

multi-modal computer vision pixel embeddings vision encoder-free unified multimodal model image generation visual understanding

Tuna-2：像素嵌入在多模态理解与生成中超越视觉编码器 / Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

1️⃣ 一句话总结

本文提出Tuna-2模型，通过直接使用像素嵌入而非预训练视觉编码器来处理图像，简化了多模态模型架构，同时在理解和生成任务上均达到顶尖性能，表明端到端的像素空间学习比传统的编码器方法更具优势。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24543

arXiv 提交日期: 2026-04-27

machine learning computer vision multi-modal rgb-t crowd counting cross-modal fusion reliability estimation density estimation benchmark

RACANet：面向RGB-T人群计数的可靠性感知群体锚点网络 / RACANet: Reliability-Aware Crowd Anchor Network for RGB-T Crowd Counting

1️⃣ 一句话总结

本文提出了一种名为RACANet的两阶段融合框架，通过显式学习跨模态语义对齐和基于区域可靠性的局部锚点融合机制，有效提升了RGB-T人群计数在复杂场景下的准确性与可解释性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24762

arXiv 提交日期: 2026-04-27

video computer vision machine learning shot boundary detection transformer benchmark synthetic data video segmentation

全视剪辑：基于镜头查询Transformer的整体关系型镜头边界检测 / OmniShotCut: Holistic Relational Shot Boundary Detection with Shot-Query Transformer

1️⃣ 一句话总结

本文提出了一种名为OmniShotCut的新方法，它利用镜头查询Transformer将视频切分任务转化为对镜头内部和镜头之间关系的整体预测，能够更准确地识别各种镜头切换，并解决现有方法在边界模糊、微小错误和训练数据不足方面的缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.24235

arXiv 提交日期: 2026-04-27

computer vision medical hand tracking gesture control intraoperative touchless interaction mediapipe

基于视觉手部追踪的非接触式术中图像访问系统 / Touchless Intraoperative Image Access System Based on Vision-Based Hand Tracking

1️⃣ 一句话总结

本文研发了一种低成本、无需额外硬件的非接触式手术图像控制系统，仅用普通摄像头识别手势，就能让医生在术中通过简单动作（如平移、旋转、缩放）直接操作医学图像，既保持无菌环境又操作流畅。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.22036

arXiv 提交日期: 2026-04-23

computer vision medical benchmark egocentric video action detection object detection medical dataset yolo

EgoMAGIC：用于训练感知算法的第一人称视角野外医疗数据集 / EgoMAGIC- An Egocentric Video Field Medicine Dataset for Training Perception Algorithms

1️⃣ 一句话总结

本文介绍了一个名为EgoMAGIC的全新第一人称视角医疗活动视频数据集，包含3355个视频和50种医疗任务，并预训练了YOLO模型以检测医疗物体，为开发增强现实辅助的医疗AI提供了重要基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.24123

1️⃣ 一句话总结

arXiv ID: 2604.24187

1️⃣ 一句话总结

arXiv ID: 2604.24312

1️⃣ 一句话总结

arXiv ID: 2604.24353

1️⃣ 一句话总结

arXiv ID: 2604.24493

1️⃣ 一句话总结

arXiv ID: 2604.24763

1️⃣ 一句话总结

arXiv ID: 2604.24543

1️⃣ 一句话总结

arXiv ID: 2604.24762

1️⃣ 一句话总结

arXiv ID: 2604.24235

1️⃣ 一句话总结

arXiv ID: 2604.22036

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.24123 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24187 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24312 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24353 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24493 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24763 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24543 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24762 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.24235 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.22036 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.24123

arXiv ID: 2604.24187

arXiv ID: 2604.24312

arXiv ID: 2604.24353

arXiv ID: 2604.24493

arXiv ID: 2604.24763

arXiv ID: 2604.24543

arXiv ID: 2604.24762

arXiv ID: 2604.24235

arXiv ID: 2604.22036