arXiv最新AI论文速览速学

🔍

标签: #computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 166 72小时内新更新论文 72h更新 171 最新: MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model 03-17

arXiv ID: 2603.14686

arXiv 提交日期: 2026-03-16

computer vision video generation multi-modal human-object interaction 3d foundation model video reenactment multi-view synthesis controllable generation

MVHOI：通过3D基础模型将多视角参考条件与复杂人-物交互视频重演相连接 / MVHOI: Bridge Multi-view Condition to Complex Human-Object Interaction Video Reenactment via 3D Foundation Model

1️⃣ 一句话总结

这篇论文提出了一种名为MVHOI的两阶段方法，它利用3D基础模型作为桥梁，结合多角度参考图像，能够生成包含复杂三维物体操控（如翻转、旋转）的、逼真且连贯的人与物体交互视频，效果显著优于现有技术。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15582

arXiv 提交日期: 2026-03-16

machine learning computer vision model evaluation 4d-stem ferroelectrics polarization mapping convolutional neural networks domain gap

利用4D-STEM进行铁电体极化映射的机器学习方法基准测试 / Benchmarking Machine Learning Approaches for Polarization Mapping in Ferroelectrics Using 4D-STEM

1️⃣ 一句话总结

这篇论文系统评估了多种机器学习模型从4D-STEM数据中自动识别铁电材料极化方向的能力，发现虽然合成数据训练的模型在理想条件下表现良好，但仿真与实验间的差异仍是实际应用的主要障碍，并指出模型预测错误可能与晶体结构缺陷相关。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15558

arXiv 提交日期: 2026-03-16

computer vision agents benchmark affordance prediction panoramic vision embodied ai dataset visual grounding

全景可供性预测 / Panoramic Affordance Prediction

1️⃣ 一句话总结

这篇论文首次提出并解决了全景图像中的可供性预测问题，通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程，显著提升了AI智能体对360度全景环境的整体感知与交互能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14861

arXiv 提交日期: 2026-03-16

computer vision systems multi-modal vehicle detection traffic analysis real-time system object tracking smart city

视频检测器：一种基于视觉的双阶段系统，用于实时交通路口控制与智能交通分析 / Video Detector: A Dual-Phase Vision-Based System for Real-Time Traffic Intersection Control and Intelligent Transportation Analysis

1️⃣ 一句话总结

这项研究提出了一个名为‘视频检测器’的双阶段视觉系统，它利用摄像头实时监控交通路口并分析车流，以低成本、高灵活性的方式替代传统的地埋感应线圈，实现智能交通管理和数据分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15153

arXiv 提交日期: 2026-03-16

computer vision video model training video super-resolution text-guided generation real-world degradation cross-modal fusion opera video benchmark

TextOVSR：文本引导的真实世界戏曲视频超分辨率 / TextOVSR: Text-Guided Real-World Opera Video Super-Resolution

1️⃣ 一句话总结

这篇论文提出了一种名为TextOVSR的新方法，通过引入描述画面退化和内容的两种文本提示来指导模型，有效解决了老旧戏曲视频因设备限制和长期存储导致的画质模糊问题，从而能更真实、细致地恢复视频的纹理细节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15475

arXiv 提交日期: 2026-03-16

computer vision model training model evaluation domain adaptation panoramic segmentation open-set learning geometric distortion semantic alignment

超越所见：用于全景分割的外推式域适应方法 / Seeing Beyond: Extrapolative Domain Adaptive Panoramic Segmentation

1️⃣ 一句话总结

本文提出了一种名为EDA-PSeg的新框架，通过创新的角度注意力机制和图匹配适配器，解决了在训练时使用普通视角图像、测试时使用360度全景图像所面临的几何变形和未知类别识别的难题，从而实现了跨域环境下更鲁棒的全景场景理解。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15011

arXiv 提交日期: 2026-03-16

computer vision multi-modal model training chemical diagram parsing vision-language models visual prompting reinforcement learning benchmark

用于化学反应图解析的分子标识符视觉提示与可验证强化学习 / Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing

1️⃣ 一句话总结

这篇论文通过引入分子标识符作为视觉提示来激活模型化学知识，并结合一种可验证的强化学习算法，有效提升了视觉语言模型在解析化学反应图时的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14998

arXiv 提交日期: 2026-03-16

computer vision robotics systems thermal imaging depth estimation monocular slam recurrent networks uav navigation

利用循环网络进行深度估计的热图像优化及其在单目ORB-SLAM3中的应用 / Thermal Image Refinement with Depth Estimation using Recurrent Networks for Monocular ORB-SLAM3

1️⃣ 一句话总结

这项研究提出了一种新方法，通过一个轻量级神经网络优化热成像图像并估计深度，从而让无人机仅凭一个普通热像摄像头就能在黑暗或无GPS信号的环境中实现精准定位和地图构建。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14948

arXiv 提交日期: 2026-03-16

robotics computer vision agents autonomous driving world model motion planning scene generation end-to-end learning

桥接场景生成与规划：通过统一视觉与运动表征实现基于世界模型的驾驶 / Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation

1️⃣ 一句话总结

这篇论文提出了一个名为WorldDrive的自动驾驶框架，它通过统一视觉和运动表征，将预测未来场景的生成模型与实时运动规划紧密结合，从而在保证高质量视频生成的同时，实现了领先的纯视觉规划性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15616

arXiv 提交日期: 2026-03-16

computer vision model training aigc text rendering preference optimization glyph accuracy visual text generation direct preference optimization

GlyphPrinter：用于字形精确视觉文本渲染的区域分组直接偏好优化 / GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

1️⃣ 一句话总结

这篇论文提出了一种名为GlyphPrinter的新方法，通过引入区域分组直接偏好优化技术，解决了现有AI生成图像中文字字形（如汉字笔画）经常出错的问题，从而在保持艺术风格的同时，显著提升了文本渲染的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.14686

1️⃣ 一句话总结

arXiv ID: 2603.15582

1️⃣ 一句话总结

arXiv ID: 2603.15558

1️⃣ 一句话总结

arXiv ID: 2603.14861

1️⃣ 一句话总结

arXiv ID: 2603.15153

1️⃣ 一句话总结

arXiv ID: 2603.15475

1️⃣ 一句话总结

arXiv ID: 2603.15011

1️⃣ 一句话总结

arXiv ID: 2603.14998

1️⃣ 一句话总结

arXiv ID: 2603.14948

1️⃣ 一句话总结

arXiv ID: 2603.15616

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.14686 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15582 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15558 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14861 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15153 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15475 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15011 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14998 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14948 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15616 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.14686

arXiv ID: 2603.15582

arXiv ID: 2603.15558

arXiv ID: 2603.14861

arXiv ID: 2603.15153

arXiv ID: 2603.15475

arXiv ID: 2603.15011

arXiv ID: 2603.14998

arXiv ID: 2603.14948

arXiv ID: 2603.15616