arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model 03-17

arXiv ID: 2603.15237

arXiv 提交日期: 2026-03-16

multi-modal computer vision model training vision-language models anomaly detection physics-informed instruction tuning causal reasoning

用于物理基础异常检测的多轮物理信息视觉语言模型 / Multi-turn Physics-informed Vision-language Model for Physics-grounded Anomaly Detection

1️⃣ 一句话总结

这项研究通过在多轮对话中融入物体属性、运动规律等物理知识，显著提升了通用视觉语言模型在检测违反物理规律的动态异常（如不规则旋转）方面的能力，使其性能远超现有最佳方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15603

arXiv 提交日期: 2026-03-16

computer vision model training systems human mesh recovery real-time inference model acceleration 3d reconstruction teleoperation

Fast SAM 3D Body：加速SAM 3D Body以实现实时全身人体网格重建 / Fast SAM 3D Body: Accelerating SAM 3D Body for Real-Time Full-Body Human Mesh Recovery

1️⃣ 一句话总结

这篇论文提出了一种无需重新训练的加速框架，通过并行化特征提取和简化模型结构，将原本耗时的3D人体重建模型提速超过10倍，使其能够实时运行，并成功应用于仅需普通摄像头的机器人远程操控系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14684

arXiv 提交日期: 2026-03-16

computer vision robotics systems 3d reconstruction event cameras gaussian splatting pose estimation novel view synthesis

E2EGS：用于无姿态三维重建的事件到边缘高斯泼溅方法 / E2EGS: Event-to-Edge Gaussian Splatting for Pose-Free 3D Reconstruction

1️⃣ 一句话总结

这项研究提出了一种仅使用事件相机数据就能重建三维场景的新方法，它通过智能地从事件流中提取边缘信息来估计相机运动并生成高质量的新视角图像，完全摆脱了对传统RGB图像和预设相机姿态的依赖。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14965

arXiv 提交日期: 2026-03-16

computer vision multi-modal model training novel view synthesis 3d gaussian splatting video diffusion geometric consistency feature adaptation

GeoNVS：基于几何约束的视频扩散模型用于新视角合成 / GeoNVS: Geometry Grounded Video Diffusion for Novel View Synthesis

1️⃣ 一句话总结

这篇论文提出了一种名为GeoNVS的新方法，它通过一个创新的‘高斯溅射特征适配器’将2D图像特征提升为3D几何表示，从而显著提升了从单一视角生成不同角度连贯且几何准确的图像的能力，并且无需额外训练即可兼容多种现有模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14819

arXiv 提交日期: 2026-03-16

model training computer vision multi-modal model unlearning vision transformers diffusion models attention editing safety

RAZOR：面向视觉Transformer与扩散模型定向遗忘的比率感知层编辑方法 / RAZOR: Ratio-Aware Layer Editing for Targeted Unlearning in Vision Transformers and Diffusion Models

1️⃣ 一句话总结

这篇论文提出了一种名为RAZOR的轻量级通用方法，通过智能识别并精准编辑Transformer模型中对特定信息最关键的层和注意力头，从而高效、安全地移除模型中的敏感或不良内容，同时保持其整体性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15348

arXiv 提交日期: 2026-03-16

computer vision systems model training spectral imaging computational imaging deep unfolding network light throughput dispersion-aware reconstruction

用于实现最大光通量光谱成像的振荡色散技术 / Oscillating Dispersion for Maximal Light-throughput Spectral Imaging

1️⃣ 一句话总结

这项研究提出了一种名为ODIS的新型光谱成像系统，它通过让色散元件在光路中前后移动来捕获图像，从而让几乎所有入射光都能被利用，解决了传统方法在弱光条件下成像质量差的问题，并配合专门设计的神经网络算法，实现了在低光照环境下高质量的光谱图像重建。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14765

arXiv 提交日期: 2026-03-16

computer vision systems model training 3d reconstruction streaming systems manifold regularization geometric drift grassmannian

SSR：一种用于流式三维重建的无训练方法 / SSR: A Training-Free Approach for Streaming 3D Reconstruction

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练的通用方法SSR，它通过将流式三维重建中的状态更新视为在格拉斯曼流形上的运动，并利用历史状态间的自表达性来校正当前更新，从而有效减少长期重建过程中的几何漂移误差，提升重建质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15404

arXiv 提交日期: 2026-03-16

computer vision systems model training object detection catastrophic forgetting adaptive architecture urban traffic autonomous vehicles

利用自适应残差上下文检测城市交通图像中的自动驾驶接驳车 / Detection of Autonomous Shuttles in Urban Traffic Images Using Adaptive Residual Context

1️⃣ 一句话总结

这篇论文提出了一种名为自适应残差上下文（ARC）的新模型架构，它能在不遗忘原有知识的前提下，高效地将自动驾驶接驳车这类新车辆类别添加到现有的交通监控系统中，从而提升道路安全评估能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14701

arXiv 提交日期: 2026-03-16

computer vision multi-modal benchmark depth completion adverse weather lidar-camera fusion robust perception depth denoising

AURORA-KITTI：面向真实世界的全天候深度补全与去噪 / AURORA-KITTI: Any-Weather Depth Completion and Denoising in the Wild

1️⃣ 一句话总结

这篇论文提出了首个大规模、多天气的深度补全基准数据集AURORA-KITTI，并设计了一个高效的基线模型DDCD，通过联合进行深度补全与去噪，显著提升了自动驾驶等场景在恶劣天气下的3D感知鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11810

arXiv 提交日期: 2026-03-12

computer vision aigc model training 3d reconstruction object editing sdf networks explicit-implicit representation geometry disentanglement

CEI-3D：用于真实且细粒度物体编辑的协作式显式-隐式三维重建 / CEI-3D: Collaborative Explicit-Implicit 3D Reconstruction for Realistic and Fine-Grained Object Editing

1️⃣ 一句话总结

这篇论文提出了一种名为CEI-3D的新方法，它通过结合隐式三维模型和可局部操控的显式控制点，实现了对三维物体更真实、更精细的编辑，解决了现有方法编辑结果不自然、不细致的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15237

1️⃣ 一句话总结

arXiv ID: 2603.15603

1️⃣ 一句话总结

arXiv ID: 2603.14684

1️⃣ 一句话总结

arXiv ID: 2603.14965

1️⃣ 一句话总结

arXiv ID: 2603.14819

1️⃣ 一句话总结

arXiv ID: 2603.15348

1️⃣ 一句话总结

arXiv ID: 2603.14765

1️⃣ 一句话总结

arXiv ID: 2603.15404

1️⃣ 一句话总结

arXiv ID: 2603.14701

1️⃣ 一句话总结

arXiv ID: 2603.11810

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15237 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15603 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14684 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14965 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14819 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15348 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14765 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15404 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14701 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11810 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15237

arXiv ID: 2603.15603

arXiv ID: 2603.14684

arXiv ID: 2603.14965

arXiv ID: 2603.14819

arXiv ID: 2603.15348

arXiv ID: 2603.14765

arXiv ID: 2603.15404

arXiv ID: 2603.14701

arXiv ID: 2603.11810