arXiv最新AI论文速览速学

🔍

标签: #visual representation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Bridging Visual Representation and Reinforcement Learning from Verifiable Rewards in Large Vision-Language Models 04-06

arXiv ID: 2603.27375

arXiv 提交日期: 2026-03-28

multi-modal reinforcement learning model training vision-language models reward optimization visual representation multimodal reasoning attention mechanisms

基于可验证奖励的大型视觉语言模型中视觉表征与强化学习的桥接 / Bridging Visual Representation and Reinforcement Learning from Verifiable Rewards in Large Vision-Language Models

1️⃣ 一句话总结

这项研究提出了一种名为KAWHI的即插即用奖励重加权机制，通过将关键视觉区域信息融入强化学习优化过程，有效解决了现有方法中视觉与推理步骤脱节的问题，从而显著提升了大型视觉语言模型在多模态推理任务上的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.15618

arXiv 提交日期: 2026-03-16

robotics multi-modal model training vision-language-action robotic manipulation attention mechanisms visual representation transformer architecture

先看后动：增强视觉-语言-动作模型中的视觉基础表征 / Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

1️⃣ 一句话总结

这篇论文提出了一种名为DeepVision-VLA的新方法，通过让视觉专家模型与动作生成主干更早、更深地共享视觉信息，并智能过滤无关的视觉细节，显著提升了机器人根据语言指令执行复杂操作任务的准确性和效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.11832

arXiv 提交日期: 2026-02-12

robotics model training multi-modal vision-language-action visual representation video predictive embedding robotic manipulation generalization

JEPA-VLA：视觉语言动作模型需要视频预测性嵌入 / JEPA-VLA: Video Predictive Embedding is Needed for VLA Models

1️⃣ 一句话总结

这篇论文提出，通过在现有视觉语言动作模型中引入一种从视频中预训练得到的、能预测环境动态的视觉表示，可以显著提升机器人操作任务的学习效率和泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.05125

arXiv 提交日期: 2026-01-08

multi-modal model training model evaluation vision-language models document understanding embedding analysis synthetic data generation visual representation

VERSE：视觉嵌入降维与空间探索——基于聚类指导的训练数据增强方法，用于富视觉文档理解 / VERSE: Visual Embedding Reduction and Space Exploration. Clustering-Guided Insights for Training Data Enhancement in Visually-Rich Document Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为VERSE的方法，它通过分析和可视化视觉语言模型的内部表示，找出模型容易出错的区域，并据此生成针对性的合成数据来增强训练，从而显著提升模型在富视觉文档理解任务上的性能，甚至能让本地模型媲美云端商业模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15715

arXiv 提交日期: 2025-12-17

computer vision model training machine learning self-supervised learning masked autoencoder visual representation pixel supervision pre-training

追求基于像素监督的视觉预训练 / In Pursuit of Pixel Supervision for Visual Pre-training

1️⃣ 一句话总结

这篇论文提出了一种名为Pixio的增强型掩码自编码器模型，通过使用更具挑战性的预训练任务和更强大的架构，在数十亿网络图像上进行训练，证明了基于像素的自监督学习方法依然高效且具有竞争力，能够在多种下游视觉任务中取得与当前先进模型相当或更优的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.08560

arXiv 提交日期: 2025-12-09

medical multi-modal model evaluation fmri analysis brain imaging visual representation sparse autoencoders neuroscience discovery

BrainExplore：用于大规模发现和解释人类大脑视觉表征的自动化框架 / BrainExplore: Large-Scale Discovery of Interpretable Visual Representations in the Human Brain

1️⃣ 一句话总结

本文提出了一个名为BrainExplore的自动化框架，它通过整合无监督数据驱动分解、预测性fMRI信号增强以及基于视觉语言模型的自动化解释流程，能够大规模、系统性地从全脑fMRI数据中发现数千个可解释的、精细粒度的视觉概念表征模式。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.02014

arXiv 提交日期: 2025-12-01

multi-modal model training computer vision unified multimodal models visual representation image generation video generation multimodal understanding

TUNA：为原生统一多模态模型驯服统一的视觉表示 / TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

1️⃣ 一句话总结

这篇论文提出了一个名为TUNA的原生统一多模态模型，它通过构建一个统一的连续视觉表示空间，让同一个模型既能理解图像和视频，也能生成和编辑它们，并且在各项任务上都取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.21697

arXiv 提交日期: 2025-10-24

computer vision model training theory diffusion models geometric reasoning image generation problem solving visual representation

视觉扩散模型作为几何求解器 / Visual Diffusion Models are Geometric Solvers

1️⃣ 一句话总结

这篇论文发现标准的视觉扩散模型能够通过将几何问题转化为图像生成任务，直接解决包括内接正方形问题在内的多个著名几何难题，无需专门设计模型结构。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.27375

1️⃣ 一句话总结

arXiv ID: 2603.15618

1️⃣ 一句话总结

arXiv ID: 2602.11832

1️⃣ 一句话总结

arXiv ID: 2601.05125

1️⃣ 一句话总结

arXiv ID: 2512.15715

1️⃣ 一句话总结

arXiv ID: 2512.08560

1️⃣ 一句话总结

arXiv ID: 2512.02014

1️⃣ 一句话总结

arXiv ID: 2510.21697

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.27375 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.15618 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.11832 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.05125 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15715 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.08560 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.02014 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.21697 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.27375

arXiv ID: 2603.15618

arXiv ID: 2602.11832

arXiv ID: 2601.05125

arXiv ID: 2512.15715

arXiv ID: 2512.08560

arXiv ID: 2512.02014

arXiv ID: 2510.21697