arXiv最新AI论文速览速学

🔍

computer vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 161 72小时内新更新论文 72h更新 166 最新: Panoramic Affordance Prediction 03-17

arXiv ID: 2603.15558

arXiv 提交日期: 2026-03-16

computer vision agents benchmark affordance prediction panoramic vision embodied ai dataset visual grounding

全景可供性预测 / Panoramic Affordance Prediction

1️⃣ 一句话总结

这篇论文首次提出并解决了全景图像中的可供性预测问题，通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程，显著提升了AI智能体对360度全景环境的整体感知与交互能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14861

arXiv 提交日期: 2026-03-16

computer vision systems multi-modal vehicle detection traffic analysis real-time system object tracking smart city

视频检测器：一种基于视觉的双阶段系统，用于实时交通路口控制与智能交通分析 / Video Detector: A Dual-Phase Vision-Based System for Real-Time Traffic Intersection Control and Intelligent Transportation Analysis

1️⃣ 一句话总结

这项研究提出了一个名为‘视频检测器’的双阶段视觉系统，它利用摄像头实时监控交通路口并分析车流，以低成本、高灵活性的方式替代传统的地埋感应线圈，实现智能交通管理和数据分析。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15153

arXiv 提交日期: 2026-03-16

computer vision video model training video super-resolution text-guided generation real-world degradation cross-modal fusion opera video benchmark

TextOVSR：文本引导的真实世界戏曲视频超分辨率 / TextOVSR: Text-Guided Real-World Opera Video Super-Resolution

1️⃣ 一句话总结

这篇论文提出了一种名为TextOVSR的新方法，通过引入描述画面退化和内容的两种文本提示来指导模型，有效解决了老旧戏曲视频因设备限制和长期存储导致的画质模糊问题，从而能更真实、细致地恢复视频的纹理细节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15475

arXiv 提交日期: 2026-03-16

computer vision model training model evaluation domain adaptation panoramic segmentation open-set learning geometric distortion semantic alignment

超越所见：用于全景分割的外推式域适应方法 / Seeing Beyond: Extrapolative Domain Adaptive Panoramic Segmentation

1️⃣ 一句话总结

本文提出了一种名为EDA-PSeg的新框架，通过创新的角度注意力机制和图匹配适配器，解决了在训练时使用普通视角图像、测试时使用360度全景图像所面临的几何变形和未知类别识别的难题，从而实现了跨域环境下更鲁棒的全景场景理解。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15011

arXiv 提交日期: 2026-03-16

computer vision multi-modal model training chemical diagram parsing vision-language models visual prompting reinforcement learning benchmark

用于化学反应图解析的分子标识符视觉提示与可验证强化学习 / Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing

1️⃣ 一句话总结

这篇论文通过引入分子标识符作为视觉提示来激活模型化学知识，并结合一种可验证的强化学习算法，有效提升了视觉语言模型在解析化学反应图时的准确性和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14998

arXiv 提交日期: 2026-03-16

computer vision robotics systems thermal imaging depth estimation monocular slam recurrent networks uav navigation

利用循环网络进行深度估计的热图像优化及其在单目ORB-SLAM3中的应用 / Thermal Image Refinement with Depth Estimation using Recurrent Networks for Monocular ORB-SLAM3

1️⃣ 一句话总结

这项研究提出了一种新方法，通过一个轻量级神经网络优化热成像图像并估计深度，从而让无人机仅凭一个普通热像摄像头就能在黑暗或无GPS信号的环境中实现精准定位和地图构建。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14948

arXiv 提交日期: 2026-03-16

robotics computer vision agents autonomous driving world model motion planning scene generation end-to-end learning

桥接场景生成与规划：通过统一视觉与运动表征实现基于世界模型的驾驶 / Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation

1️⃣ 一句话总结

这篇论文提出了一个名为WorldDrive的自动驾驶框架，它通过统一视觉和运动表征，将预测未来场景的生成模型与实时运动规划紧密结合，从而在保证高质量视频生成的同时，实现了领先的纯视觉规划性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15616

arXiv 提交日期: 2026-03-16

computer vision model training aigc text rendering preference optimization glyph accuracy visual text generation direct preference optimization

GlyphPrinter：用于字形精确视觉文本渲染的区域分组直接偏好优化 / GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering

1️⃣ 一句话总结

这篇论文提出了一种名为GlyphPrinter的新方法，通过引入区域分组直接偏好优化技术，解决了现有AI生成图像中文字字形（如汉字笔画）经常出错的问题，从而在保持艺术风格的同时，显著提升了文本渲染的准确性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15237

arXiv 提交日期: 2026-03-16

multi-modal computer vision model training vision-language models anomaly detection physics-informed instruction tuning causal reasoning

用于物理基础异常检测的多轮物理信息视觉语言模型 / Multi-turn Physics-informed Vision-language Model for Physics-grounded Anomaly Detection

1️⃣ 一句话总结

这项研究通过在多轮对话中融入物体属性、运动规律等物理知识，显著提升了通用视觉语言模型在检测违反物理规律的动态异常（如不规则旋转）方面的能力，使其性能远超现有最佳方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15603

arXiv 提交日期: 2026-03-16

computer vision model training systems human mesh recovery real-time inference model acceleration 3d reconstruction teleoperation

Fast SAM 3D Body：加速SAM 3D Body以实现实时全身人体网格重建 / Fast SAM 3D Body: Accelerating SAM 3D Body for Real-Time Full-Body Human Mesh Recovery

1️⃣ 一句话总结

这篇论文提出了一种无需重新训练的加速框架，通过并行化特征提取和简化模型结构，将原本耗时的3D人体重建模型提速超过10倍，使其能够实时运行，并成功应用于仅需普通摄像头的机器人远程操控系统。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.15558

1️⃣ 一句话总结

arXiv ID: 2603.14861

1️⃣ 一句话总结

arXiv ID: 2603.15153

1️⃣ 一句话总结

arXiv ID: 2603.15475

1️⃣ 一句话总结

arXiv ID: 2603.15011

1️⃣ 一句话总结

arXiv ID: 2603.14998

1️⃣ 一句话总结

arXiv ID: 2603.14948

1️⃣ 一句话总结

arXiv ID: 2603.15616

1️⃣ 一句话总结

arXiv ID: 2603.15237

1️⃣ 一句话总结

arXiv ID: 2603.15603

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.15558 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14861 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15153 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15475 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15011 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14998 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14948 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15616 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15237 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15603 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.15558

arXiv ID: 2603.14861

arXiv ID: 2603.15153

arXiv ID: 2603.15475

arXiv ID: 2603.15011

arXiv ID: 2603.14998

arXiv ID: 2603.14948

arXiv ID: 2603.15616

arXiv ID: 2603.15237

arXiv ID: 2603.15603