arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 76 72小时内新更新论文 72h更新 176 最新: Benchmarking Layout-Guided Diffusion Models through Unified Semantic-Spatial Evaluation in Closed and Open Settings 05-03

arXiv ID: 2604.19587

arXiv 提交日期: 2026-04-21

computer vision model training multi-modal image editing reasoning-to-generation photographic enhancement reinforcement learning image quality

SmartPhotoCrafter：面向自动照片图像编辑的统一推理、生成与优化 / SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

1️⃣ 一句话总结

本文提出了一种名为SmartPhotoCrafter的自动照片编辑方法，它像一位智能摄影师，先自动分析照片的不足之处，再针对性地进行修复和美化，无需用户提供任何专业指令，就能生成媲美专业后期效果的图片。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19680

arXiv 提交日期: 2026-04-21

computer vision machine learning image restoration rectified flow generative models discriminative models few-step sampling

IR-Flow：通过矫正流连接判别式与生成式图像复原 / IR-Flow: Bridging Discriminative and Generative Image Restoration via Rectified Flow

1️⃣ 一句话总结

本文提出了一种名为IR-Flow的图像修复方法，它利用矫正流技术，将传统的快速但细节不足的判别式方法和细节丰富但速度慢的生成式方法统一起来，通过多级数据流和累积速度场，仅需少量几步就能高效、高质量地完成去雨、去噪等图像修复任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19632

arXiv 提交日期: 2026-04-21

computer vision machine learning aigc graphic design parsing raster-to-layer multi-branch diffusion vision-language model generative image parsing

CreatiParser：将光栅图形设计生成为可编辑图层的生成式图像解析 / CreatiParser: Generative Image Parsing of Raster Graphic Designs into Editable Layers

1️⃣ 一句话总结

该论文提出了一种名为CreatiParser的混合生成式框架，能够将光栅格式的平面设计图自动拆解为文本、背景和贴纸等独立可编辑的图层，并通过视觉语言模型和强化学习优化生成质量，相比现有方法在两项测试集上平均性能提升23.7%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19350

arXiv 提交日期: 2026-04-21

medical computer vision model training breast cancer mammogram vision transformer contrastive learning fine-grained classification

关注重点：利用视觉基础模型进行基于乳腺X光图像的乳腺癌分类 / Attend what matters: Leveraging vision foundational models for breast cancer classification using mammograms

1️⃣ 一句话总结

该论文提出了一种结合目标检测、对比学习和自监督视觉Transformer（DINOv2）的框架，通过减少无关图像区域、强化对相似病变的区分能力，有效提升了乳腺X光片中乳腺癌检测的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19741

arXiv 提交日期: 2026-04-21

computer vision video generation aigc video generation spatially grounded 3d consistency navigable environment autonomous driving

CityRAG：通过空间锚定的视频生成步入城市 / CityRAG: Stepping Into a City via Spatially-Grounded Video Generation

1️⃣ 一句话总结

CityRAG提出了一种新的视频生成模型，能够利用真实地理数据生成与物理世界一致、可自由导航的长视频，并支持任意天气和动态物体变化，从而为自动驾驶和机器人仿真提供高保真的虚拟城市环境。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19234

arXiv 提交日期: 2026-04-21

reinforcement learning computer vision video generation grpo reward credit assignment diffusion models multi-objective optimization visual generation

学习为正确的步骤分配功劳：面向目标的视觉生成过程优化 / Learning to Credit the Right Steps: Objective-aware Process Optimization for Visual Generation

1️⃣ 一句话总结

本文提出了一种名为OTCA的框架，通过将多个奖励信号（如图像质量、运动一致性）按去噪步骤的重要性进行分解和自适应分配，从而让强化学习训练更精准地指导视觉生成模型，显著提升图像和视频的生成质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19564

arXiv 提交日期: 2026-04-21

computer vision agents systems egocentric assistant personalization graph memory interaction prediction

EgoSelf：从记忆到个性化自我中心助手 / EgoSelf: From Memory to Personalized Egocentric Assistant

1️⃣ 一句话总结

本文提出了一种名为EgoSelf的个性化自我中心助手系统，通过构建基于图的交互记忆来捕捉用户的行为习惯和偏好，并利用预测未来交互的学习任务实现精准的个性化服务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19724

arXiv 提交日期: 2026-04-21

computer vision theory machine learning vision transformers adversarial training benign overfitting robust generalization theoretical analysis

对抗训练中视觉Transformer的良性过拟合 / Benign Overfitting in Adversarial Training for Vision Transformers

1️⃣ 一句话总结

本文首次从理论上证明了，在特定信号噪声比和适度扰动强度下，视觉Transformer（ViT）通过对抗训练不仅能实现近乎零的鲁棒训练损失和良好的泛化能力，而且即使模型出现过度拟合，这种过拟合反而是“良性”的——不会损害模型对对抗样本的防御效果，从而将之前仅在卷积神经网络（CNN）中观察到的现象推广到了ViT中。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19631

arXiv 提交日期: 2026-04-21

computer vision video multi-modal dynamic scene graph generation motion-guided semantic alignment video understanding relationship modeling action semantic matching

MoSA：面向动态场景图生成的运动引导语义对齐方法 / MOSA: Motion-Guided Semantic Alignment for Dynamic Scene Graph Generation

1️⃣ 一句话总结

本文提出了一种名为MoSA的方法，通过提取物体间的运动特征（如速度、距离）并将其与空间关系融合，再借助文本语义对齐技术，显著提升了视频中物体间动态关系的识别能力，尤其对罕见关系类型的建模效果更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.19233

arXiv 提交日期: 2026-04-21

computer vision model training small object detection adaptive slicing high-resolution imagery inference optimization aerial imagery

自适应切片辅助超推理：面向高分辨率影像中增强小目标检测的方法 / Adaptive Slicing-Assisted Hyper Inference for Enhanced Small Object Detection in High-Resolution Imagery

1️⃣ 一句话总结

本文提出一种自适应切片框架（ASAHI），能根据图像分辨率动态决定切片数量，在减少冗余计算的同时提升高分辨率遥感图像中小目标检测的精度和速度，并在两个公开数据集上取得最优结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.19587

1️⃣ 一句话总结

arXiv ID: 2604.19680

1️⃣ 一句话总结

arXiv ID: 2604.19632

1️⃣ 一句话总结

arXiv ID: 2604.19350

1️⃣ 一句话总结

arXiv ID: 2604.19741

1️⃣ 一句话总结

arXiv ID: 2604.19234

1️⃣ 一句话总结

arXiv ID: 2604.19564

1️⃣ 一句话总结

arXiv ID: 2604.19724

1️⃣ 一句话总结

arXiv ID: 2604.19631

1️⃣ 一句话总结

arXiv ID: 2604.19233

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.19587 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19680 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19632 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19350 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19741 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19234 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19564 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19724 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19631 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.19233 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.19587

arXiv ID: 2604.19680

arXiv ID: 2604.19632

arXiv ID: 2604.19350

arXiv ID: 2604.19741

arXiv ID: 2604.19234

arXiv ID: 2604.19564

arXiv ID: 2604.19724

arXiv ID: 2604.19631

arXiv ID: 2604.19233