arXiv最新AI论文速览速学

🔍

标签: #egocentric vision ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 50 最新: Decoding Pedestrian Crossing Intention from Egocentric Vision via Vision Language Models 06-09

arXiv ID: 2606.09142

arXiv 提交日期: 2026-06-08

computer vision multi-modal model training egocentric vision pedestrian intent vision language model fine-tuning zero-shot

通过视觉语言模型从第一人称视角解码行人过街意图 / Decoding Pedestrian Crossing Intention from Egocentric Vision via Vision Language Models

1️⃣ 一句话总结

本研究利用视觉语言模型分析第一人称视角的短视频，通过将其转化为问答任务来预测行人是否要过马路，并发现微调后的模型比零样本方法和传统模型更准确，结合自身运动、车辆运动和视线等额外信息后，准确率可提升14.5%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.23190

arXiv 提交日期: 2026-03-24

multi-modal computer vision model training vision language models eye gaze egocentric vision attention regularization behavior understanding

用于第一人称行为理解的视线正则化视觉语言模型 / Gaze-Regularized VLMs for Ego-Centric Behavior Understanding

1️⃣ 一句话总结

这项研究提出了一种将人眼视线信息融入视觉语言模型的新方法，通过让模型学习并模仿人的注意力模式，显著提升了模型在第一人称视角下预测未来行为和描述动作细节的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08317

arXiv 提交日期: 2026-03-09

computer vision model evaluation benchmark action recognition human-ai comparison egocentric vision spatiotemporal analysis robustness evaluation

在空间与时空操作下人机在以自我为中心动作识别中的差异 / Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

1️⃣ 一句话总结

这项研究发现，在识别视频中的动作时，人类主要依赖关键的手-物交互等语义线索，而AI模型则更依赖上下文和中低层视觉特征，导致在图像被裁剪或时间顺序被打乱时，两者的识别表现和策略存在显著差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22683

arXiv 提交日期: 2026-02-26

multi-modal benchmark agents vision language models smart glasses visual question answering egocentric vision retrieval-augmented generation

SUPERGLASSES：将视觉语言模型作为智能眼镜智能代理的基准测试 / SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

1️⃣ 一句话总结

这篇论文提出了首个基于真实智能眼镜数据构建的视觉问答基准测试SUPERGLASSES，并设计了一个名为SUPERLENS的新型智能眼镜代理，该代理通过整合目标检测和网络搜索，在回答问题时超越了GPT-4o等现有模型，为解决智能眼镜场景下的特定挑战提供了新方案。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.10943

arXiv 提交日期: 2026-02-11

computer vision robotics model training neural radiance fields 3d reconstruction scene representation robot manipulation egocentric vision

从二维观测中学习可泛化的三维场景表示 / Towards Learning a Generalizable 3D Scene Representation from 2D Observations

1️⃣ 一句话总结

这篇论文提出了一种新的可泛化神经辐射场方法，能够仅通过机器人第一视角的二维图像，直接预测出全局坐标系下的三维空间占用情况，无需针对新场景进行额外训练，从而更好地支持机器人抓取等任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01707

arXiv 提交日期: 2025-12-01

multi-modal benchmark model evaluation gaze-guided reasoning streaming video understanding proactive prediction intention modeling egocentric vision

StreamGaze：流媒体视频中的视线引导时序推理与前瞻性理解 / StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

1️⃣ 一句话总结

这篇论文提出了首个名为StreamGaze的基准测试，用于评估多模态大模型如何利用实时视线信号来理解动态视频内容、推断用户意图并进行前瞻性预测，结果发现现有模型在这些方面与人类能力存在显著差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2511.02832

arXiv 提交日期: 2025-11-04

robotics systems data humanoid teleoperation whole-body control visuomotor policy egocentric vision data collection

TWIST2：可扩展、便携且全面的人形机器人数据收集系统 / TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System

1️⃣ 一句话总结

这篇论文提出了一个无需动作捕捉设备、成本低廉且便携的人形机器人数据收集系统TWIST2，它通过VR技术实现全身动作控制，并基于收集的数据开发出能够自主执行复杂任务的视觉运动策略，显著提升了人形机器人技能学习的效率和实用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14359

arXiv 提交日期: 2025-10-16

agents systems multi-modal proactive assistance egocentric vision multi-agent system wearable ai real-time intervention

AI服务：通过AI眼镜实现主动辅助 / AI for Service: Proactive Assistance with AI Glasses

1️⃣ 一句话总结

这篇论文提出了一种名为Alpha-Service的新框架，让AI眼镜能够主动预测用户需求并提供实时帮助，从而将AI从被动响应转变为智能主动的日常助手。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.09142

1️⃣ 一句话总结

arXiv ID: 2603.23190

1️⃣ 一句话总结

arXiv ID: 2603.08317

1️⃣ 一句话总结

arXiv ID: 2602.22683

1️⃣ 一句话总结

arXiv ID: 2602.10943

1️⃣ 一句话总结

arXiv ID: 2512.01707

1️⃣ 一句话总结

arXiv ID: 2511.02832

1️⃣ 一句话总结

arXiv ID: 2510.14359

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.09142 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.23190 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08317 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22683 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.10943 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01707 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2511.02832 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14359 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.09142

arXiv ID: 2603.23190

arXiv ID: 2603.08317

arXiv ID: 2602.22683

arXiv ID: 2602.10943

arXiv ID: 2512.01707

arXiv ID: 2511.02832

arXiv ID: 2510.14359