arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: TopoMamba: Topology-Aware Scanning and Fusion for Segmenting Heterogeneous Medical Visual Media 05-02

arXiv ID: 2604.20123

arXiv 提交日期: 2026-04-22

computer vision machine learning skeleton detection topology-aware structured inference skeleton continuity object skeletons

基于灯塔引导的结构化推理的拓扑感知骨架检测 / Topology-Aware Skeleton Detection via Lighthouse-Guided Structured Inference

1️⃣ 一句话总结

本文提出了一种新的骨架检测方法，通过同时学习骨架置信度和关键结构点（端点、分叉点），并利用检测到的断点作为“灯塔”引导骨架片段的重新连接，从而在保持检测精度的同时显著提升了骨架的连续性和结构完整性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20715

arXiv 提交日期: 2026-04-22

computer vision multi-modal machine learning relighting 3d reconstruction diffusion transformer single image geometry

GeoRelight：利用灵活的多模态扩散变换器实现联合几何重建与重光照学习 / GeoRelight: Learning Joint Geometrical Relighting and Reconstruction with Flexible Multi-Modal Diffusion Transformers

1️⃣ 一句话总结

本文提出了一种名为GeoRelight的统一多模态扩散模型，能够从单张照片同时重建人物的3D几何形状和实现重光照，通过将这两个相互受益的任务联合求解，解决了传统分步方法误差累积和光照不一致的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20474

arXiv 提交日期: 2026-04-22

computer vision machine learning point clouds feature detection random walk neighborhood descriptor feature extraction

点云上的随机游走用于特征检测 / Random Walk on Point Clouds for Feature Detection

1️⃣ 一句话总结

本文提出了一种名为RWoDSN的创新方法，通过将点云局部区域构建成一种新型圆盘采样邻域（DSN）结构，并在此结构上进行随机游走分析，从而高效、准确地从点云中提取出能完整勾勒模型形状的关键特征点，尤其在处理从尖锐到平滑、从大到小、从纹理到细节的多尺度特征上表现出色。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20358

arXiv 提交日期: 2026-04-22

computer vision multi-modal machine learning composed image retrieval noisy correspondence unlearning noise robustness embedding learning

ConeSep：基于锥体的鲁棒噪声遗忘组合网络用于组合图像检索 / ConeSep: Cone-based Robust Noise-Unlearning Compositional Network for Composed Image Retrieval

1️⃣ 一句话总结

本文针对组合图像检索中因标注错误导致的噪声问题，提出了一种名为ConeSep的新型网络，通过几何精度量化、负边界学习和基于边界的定向遗忘三个创新模块，有效解决了传统方法难以应对的“硬噪声”挑战，在多个公开数据集上取得了领先性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20258

arXiv 提交日期: 2026-04-22

computer vision image editing instruction-based editing edit localization task-aware diffusion transformers attention mechanism

重新思考编辑位置：面向指令的图像编辑中的任务感知定位 / Rethinking Where to Edit: Task-Aware Localization for Instruction-Based Image Editing

1️⃣ 一句话总结

本文提出了一种无需重新训练的、能根据不同类型编辑任务（如添加、删除或替换）自动确定图像中哪些区域需要修改的方法，有效避免了以往方法误改无关区域的问题，从而在保持编辑效果的同时，更好地保留图像中不需要修改的部分。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20760

arXiv 提交日期: 2026-04-22

computer vision machine learning video understanding self-similarity temporal modeling action recognition motion analysis

探索高阶自相似性以理解视频 / Exploring High-Order Self-Similarity for Video Understanding

1️⃣ 一句话总结

本文提出了一种轻量级的神经网络模块MOSS，能够从视频中提取并整合不同层次的时空自相似性特征，从而以极低的计算成本显著提升动作识别、视频问答和机器人任务等多种视频理解任务的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.20093

arXiv 提交日期: 2026-04-22

computer vision machine learning 3d reconstruction single-view 3d reconstruction repeated instance detection self-attention mechanism layout optimization scene alignment

FurnSet：利用重复物体进行三维场景重建 / FurnSet: Exploiting Repeats for 3D Scene Reconstruction

1️⃣ 一句话总结

本文提出了一种名为FurnSet的三维场景重建框架，通过智能识别场景中重复出现的物体（如相同的椅子或灯具），并让这些物体互相补充信息、协同重建，从而大幅提升从单张图片重建整个三维场景的准确性和完整性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19202

arXiv 提交日期: 2026-04-21

computer vision multi-modal model generation 3d gaussian splatting sketch-driven editing face generation uv feature map real-time rendering

SketchFaceGS：基于高斯点绘的实时手绘驱动人脸编辑与生成 / SketchFaceGS: Real-Time Sketch-Driven Face Editing and Generation with Gaussian Splatting

1️⃣ 一句话总结

本文提出了一种名为SketchFaceGS的新方法，能让用户通过简单的手绘草图，实时生成或编辑逼真的3D人脸模型，它先用草图预测粗糙的3D结构，再自动添加细节，并支持像画画一样轻松修改局部外观。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19141

arXiv 提交日期: 2026-04-21

computer vision aigc diffusion models adaptive sampling image generation patch-level denoising text-to-image

去噪，快与慢：面向图像生成的难度感知自适应采样 / Denoising, Fast and Slow: Difficulty-Aware Adaptive Sampling for Image Generation

1️⃣ 一句话总结

本文提出了一种名为Patch Forcing的图像生成方法，通过让模型在生成图像时，对不同区域（如简单背景和复杂物体）采用不同的去噪速度，优先处理简单区域以帮助处理复杂区域，从而在不增加计算量的情况下提升图像质量，并在多个任务上取得更优结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19043

arXiv 提交日期: 2026-04-21

machine learning reinforcement learning computer vision action model learning visual traces unsupervised mixed-integer linear program state prediction

从无监督视觉轨迹中学习提升动作模型 / Learning Lifted Action Models from Unsupervised Visual Traces

1️⃣ 一句话总结

本研究提出一种深度学习框架，能够仅从图像序列（不依赖动作标签）中自动学习动作的前提条件和效果，并通过混合整数线性规划来纠正预测错误，从而构建逻辑一致的动作模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.20123

1️⃣ 一句话总结

arXiv ID: 2604.20715

1️⃣ 一句话总结

arXiv ID: 2604.20474

1️⃣ 一句话总结

arXiv ID: 2604.20358

1️⃣ 一句话总结

arXiv ID: 2604.20258

1️⃣ 一句话总结

arXiv ID: 2604.20760

1️⃣ 一句话总结

arXiv ID: 2604.20093

1️⃣ 一句话总结

arXiv ID: 2604.19202

1️⃣ 一句话总结

arXiv ID: 2604.19141

1️⃣ 一句话总结

arXiv ID: 2604.19043

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.20123 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20715 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20474 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20358 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20258 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20760 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.20093 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19202 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19141 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19043 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.20123

arXiv ID: 2604.20715

arXiv ID: 2604.20474

arXiv ID: 2604.20358

arXiv ID: 2604.20258

arXiv ID: 2604.20760

arXiv ID: 2604.20093

arXiv ID: 2604.19202

arXiv ID: 2604.19141

arXiv ID: 2604.19043