arXiv最新AI论文速览速学

🔍

computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 83 72小时内新更新论文 72h更新 160 最新: IConFace: Identity-Structure Asymmetric Conditioning for Unified Reference-Aware Face Restoration 05-05

arXiv ID: 2604.13432

arXiv 提交日期: 2026-04-15

computer vision model training model evaluation token merging vision transformers efficient inference image synthesis video acceleration

MaMe与MaRe：基于矩阵的令牌合并与恢复，用于高效视觉感知与合成 / MaMe & MaRe: Matrix-Based Token Merging and Restoration for Efficient Visual Perception and Synthesis

1️⃣ 一句话总结

这篇论文提出了一种名为MaMe的全新、无需训练且完全基于矩阵运算的令牌合并方法，以及其逆向恢复方法MaRe，它们能高效加速视觉Transformer模型，在图像分类、视频理解和图像生成等多种任务中实现显著的速度提升，同时保持甚至提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13797

arXiv 提交日期: 2026-04-15

computer vision aigc model training font generation few-shot learning style-content disentanglement contrastive learning multi-scale fusion

DRG-Font：通过对比式风格-内容解耦实现动态参考引导的少样本字体生成 / DRG-Font: Dynamic Reference-Guided Few-shot Font Generation via Contrastive Style-Content Disentanglement

1️⃣ 一句话总结

这篇论文提出了一种名为DRG-Font的新方法，它通过智能地分离字体的风格和内容，并动态选择最佳参考样式，从而仅用少量例子就能生成风格一致且细节清晰的新字体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13589

arXiv 提交日期: 2026-04-15

computer vision multi-modal model training novel view synthesis 3d gaussian splatting image dehazing physics-informed learning multi-view consistency

先除雾后渲染：基于物理信息3D高斯泼溅的生成式除雾与无烟新视角合成 / Dehaze-then-Splat: Generative Dehazing with Physics-Informed 3D Gaussian Splatting for Smoke-Free Novel View Synthesis

1️⃣ 一句话总结

这篇论文提出了一种先对单张图片进行AI除雾、再用物理规律辅助的3D建模技术，解决了烟雾场景下多角度照片重建3D模型时画面模糊和不稳定的问题，从而能合成出清晰、一致的无烟新视角画面。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13476

arXiv 提交日期: 2026-04-15

robotics computer vision systems 360-degree perception 3d gaussian splatting novel view synthesis real-time rendering multi-sensor dataset

RobotPan：一个用于具身感知的360度全景机器人视觉系统 / RobotPan: A 360$^\circ$ Surround-View Robotic Vision System for Embodied Perception

1️⃣ 一句话总结

这篇论文提出了一个名为RobotPan的机器人视觉系统，它通过整合多个摄像头和激光雷达，实现了360度全景实时视觉感知与三维场景重建，解决了传统机器人视野狭窄和画面抖动的问题，为远程操控和自主导航等任务提供了更流畅、更全面的环境感知能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14147

arXiv 提交日期: 2026-04-15

multi-modal model enhancement computer vision segmentation retrieval-augmented generation novel entities multimodal llm benchmark

ROSE：面向检索的分割增强 / ROSE: Retrieval-Oriented Segmentation Enhancement

1️⃣ 一句话总结

这篇论文提出了一个名为ROSE的即插即用框架，通过智能检索网络上的最新图文信息，帮助现有的多模态图像分割模型识别训练数据中从未见过或需要最新知识才能准确识别的新兴物体。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13789

arXiv 提交日期: 2026-04-15

computer vision robotics systems 3d object tracking long-term memory temporal consistency lidar point clouds real-time tracking

用于三维单目标跟踪的时序一致长时记忆模型 / Temporally Consistent Long-Term Memory for 3D Single Object Tracking

1️⃣ 一句话总结

这篇论文提出了一个名为ChronoTrack的新方法，通过引入一个紧凑且时序一致的长时记忆模块，有效解决了三维点云序列中目标跟踪因特征漂移和记忆开销大而难以长期稳定的问题，从而在多个标准测试集上取得了最佳性能并能实时运行。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13425

arXiv 提交日期: 2026-04-15

computer vision video model training video editing self-supervised learning color transfer temporal coherence zero-shot generalization

VibeFlow：通过自监督学习实现多功能视频色彩-光照编辑 / VibeFlow: Versatile Video Chroma-Lux Editing through Self-Supervised Learning

1️⃣ 一句话总结

这篇论文提出了一种名为VibeFlow的自监督学习框架，它能够巧妙地利用现有视频生成模型的知识，无需大量人工标注数据，就能高效、高质量地完成视频的重新打光、重新着色、低光增强等多种编辑任务，同时保持视频结构的稳定和播放的流畅。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13367

arXiv 提交日期: 2026-04-15

medical computer vision model training medical image segmentation 3d segmentation sam adaptation prompt engineering limited data

一种基于3D SAM的渐进式提示框架：用于有限数据场景下放疗所致正常组织损伤的多任务分割 / A 3D SAM-Based Progressive Prompting Framework for Multi-Task Segmentation of Radiotherapy-induced Normal Tissue Injuries in Limited-Data Settings

1️⃣ 一句话总结

这项研究提出了一种新的智能医学图像分割方法，它通过结合文本、剂量引导框和点击三种提示，在数据有限的情况下，也能准确识别和勾画放疗后头部和颈部出现的多种正常组织损伤区域，帮助医生更好地评估和治疗。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.14048

arXiv 提交日期: 2026-04-15

computer vision model training model evaluation 3d reconstruction self-supervised learning test-time adaptation multi-view consistency lora fine-tuning

自由几何：从自身更长版本中优化三维重建 / Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

1️⃣ 一句话总结

这篇论文提出了一种名为‘自由几何’的新方法，能让现成的三维重建AI模型在遇到新场景时，通过观察更多角度的图像来自我学习和快速调整，从而显著提升重建的准确性和稳定性，整个过程无需额外的三维数据标注。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.13448

arXiv 提交日期: 2026-04-15

computer vision model evaluation benchmark human-object interaction failure analysis two-stage detection scene understanding model limitations

两阶段人-物交互检测中的失败模式研究 / A Study of Failure Modes in Two-Stage Human-Object Interaction Detection

1️⃣ 一句话总结

这篇论文通过分析两阶段人-物交互检测模型在复杂场景（如多人互动和罕见交互组合）中的具体失败模式，揭示了高整体性能并不等同于模型具备稳健的视觉推理能力，为理解模型局限性和未来研究提供了新视角。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.13432

1️⃣ 一句话总结

arXiv ID: 2604.13797

1️⃣ 一句话总结

arXiv ID: 2604.13589

1️⃣ 一句话总结

arXiv ID: 2604.13476

1️⃣ 一句话总结

arXiv ID: 2604.14147

1️⃣ 一句话总结

arXiv ID: 2604.13789

1️⃣ 一句话总结

arXiv ID: 2604.13425

1️⃣ 一句话总结

arXiv ID: 2604.13367

1️⃣ 一句话总结

arXiv ID: 2604.14048

1️⃣ 一句话总结

arXiv ID: 2604.13448

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.13432 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13797 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13589 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13476 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14147 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13789 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13425 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13367 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.14048 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.13448 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.13432

arXiv ID: 2604.13797

arXiv ID: 2604.13589

arXiv ID: 2604.13476

arXiv ID: 2604.14147

arXiv ID: 2604.13789

arXiv ID: 2604.13425

arXiv ID: 2604.13367

arXiv ID: 2604.14048

arXiv ID: 2604.13448