arXiv ID:
2603.15558
全景可供性预测 / Panoramic Affordance Prediction
1️⃣ 一句话总结
这篇论文首次提出并解决了全景图像中的可供性预测问题,通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程,显著提升了AI智能体对360度全景环境的整体感知与交互能力。
全景可供性预测 / Panoramic Affordance Prediction
这篇论文首次提出并解决了全景图像中的可供性预测问题,通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程,显著提升了AI智能体对360度全景环境的整体感知与交互能力。
视频检测器:一种基于视觉的双阶段系统,用于实时交通路口控制与智能交通分析 / Video Detector: A Dual-Phase Vision-Based System for Real-Time Traffic Intersection Control and Intelligent Transportation Analysis
这项研究提出了一个名为‘视频检测器’的双阶段视觉系统,它利用摄像头实时监控交通路口并分析车流,以低成本、高灵活性的方式替代传统的地埋感应线圈,实现智能交通管理和数据分析。
TextOVSR:文本引导的真实世界戏曲视频超分辨率 / TextOVSR: Text-Guided Real-World Opera Video Super-Resolution
这篇论文提出了一种名为TextOVSR的新方法,通过引入描述画面退化和内容的两种文本提示来指导模型,有效解决了老旧戏曲视频因设备限制和长期存储导致的画质模糊问题,从而能更真实、细致地恢复视频的纹理细节。
超越所见:用于全景分割的外推式域适应方法 / Seeing Beyond: Extrapolative Domain Adaptive Panoramic Segmentation
本文提出了一种名为EDA-PSeg的新框架,通过创新的角度注意力机制和图匹配适配器,解决了在训练时使用普通视角图像、测试时使用360度全景图像所面临的几何变形和未知类别识别的难题,从而实现了跨域环境下更鲁棒的全景场景理解。
用于化学反应图解析的分子标识符视觉提示与可验证强化学习 / Molecular Identifier Visual Prompt and Verifiable Reinforcement Learning for Chemical Reaction Diagram Parsing
这篇论文通过引入分子标识符作为视觉提示来激活模型化学知识,并结合一种可验证的强化学习算法,有效提升了视觉语言模型在解析化学反应图时的准确性和泛化能力。
利用循环网络进行深度估计的热图像优化及其在单目ORB-SLAM3中的应用 / Thermal Image Refinement with Depth Estimation using Recurrent Networks for Monocular ORB-SLAM3
这项研究提出了一种新方法,通过一个轻量级神经网络优化热成像图像并估计深度,从而让无人机仅凭一个普通热像摄像头就能在黑暗或无GPS信号的环境中实现精准定位和地图构建。
桥接场景生成与规划:通过统一视觉与运动表征实现基于世界模型的驾驶 / Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation
这篇论文提出了一个名为WorldDrive的自动驾驶框架,它通过统一视觉和运动表征,将预测未来场景的生成模型与实时运动规划紧密结合,从而在保证高质量视频生成的同时,实现了领先的纯视觉规划性能。
GlyphPrinter:用于字形精确视觉文本渲染的区域分组直接偏好优化 / GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering
这篇论文提出了一种名为GlyphPrinter的新方法,通过引入区域分组直接偏好优化技术,解决了现有AI生成图像中文字字形(如汉字笔画)经常出错的问题,从而在保持艺术风格的同时,显著提升了文本渲染的准确性。
用于物理基础异常检测的多轮物理信息视觉语言模型 / Multi-turn Physics-informed Vision-language Model for Physics-grounded Anomaly Detection
这项研究通过在多轮对话中融入物体属性、运动规律等物理知识,显著提升了通用视觉语言模型在检测违反物理规律的动态异常(如不规则旋转)方面的能力,使其性能远超现有最佳方法。
Fast SAM 3D Body:加速SAM 3D Body以实现实时全身人体网格重建 / Fast SAM 3D Body: Accelerating SAM 3D Body for Real-Time Full-Body Human Mesh Recovery
这篇论文提出了一种无需重新训练的加速框架,通过并行化特征提取和简化模型结构,将原本耗时的3D人体重建模型提速超过10倍,使其能够实时运行,并成功应用于仅需普通摄像头的机器人远程操控系统。
请先 登录 后再提交论文