arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

清除筛选

搜索范围：

📄

2510.08565

🤖 系统

10-11 12:29

multimodal llm scaling laws mixture of experts vision-language alignment end-to-end training

📄 论文总结

NaViL：原生多模态大语言模型的系统研究与缩放特性 / NaViL: Systematic Study and Scaling Properties of Native Multimodal Large Language Models

1️⃣ 一句话总结

本文提出了NaViL原生多模态大语言模型，通过系统研究视觉与语言组件的设计空间和缩放特性，在数据受限条件下实现了端到端训练的高性能多模态理解。

2️⃣ 论文创新点

1. 原生MLLM端到端训练范式

创新点：提出并系统研究原生多模态大语言模型的端到端训练方式，与传统组合式训练范式形成对比
区别/改进：通过联合优化视觉和语言空间，最大化视觉-语言对齐，简化了训练流程
意义：探索更清晰的多模态缩放特性，为在数据受限条件下构建高性能MLLMs提供可行路径

2. 视觉-语言组件缩放定律

创新点：发现视觉编码器与LLM的最优尺寸在log尺度上近似正比关系
区别/改进：突破组合式范式使用固定尺寸视觉编码器的限制
意义：为原生MLLM的组件缩放提供新指导原则

3. 模态特定MoE架构

创新点：在LLM中同时引入模态特定的FFN专家和注意力专家，使用不同的投影层分别处理视觉和文本特征
区别/改进：解决了仅使用FFN专家导致的模态间特征尺度差异问题
意义：显著加速模型收敛，提升模型容量并有效处理异构数据

4. 两阶段训练策略

创新点：第一阶段使用大规模图像-文本对进行预训练，第二阶段使用高质量数据增强多模态对齐
区别/改进：先建立基础多模态表示，再通过高质量数据精细化特征对齐
意义：确保模型既具备广泛的多模态理解能力，又能精确对齐视觉与文本特征

3️⃣ 主要结果与价值

结果亮点

NaViL-2B和NaViL-9B在14个多模态基准测试上均优于现有原生MLLMs，性能与使用相同LLM的组合基线模型相当
模态特定MoE架构仅用1/10数据即可达到相同验证损失，且不增加训练/推理成本
更大的视觉编码器能促进浅层注意力关注全局信息并增强跨模态早期交互，从而提升性能
NaViL-9B仅使用450B token，远少于组合式方法的>3.5T token，展现了原生MLLMs在训练效率上的显著优势

实际价值

为构建高效的多模态大模型提供了系统设计指导，特别适合计算资源受限的场景
支持任意分辨率输入图像和端到端训练，为多模态任务提供了更灵活和强大的模型基础架构
在图像理解、OCR、文档解析和数学公式处理等多个任务上展现出统一处理能力
为下一代MLLM研究提供启发，证明了原生端到端训练范式的可行性和优越性

4️⃣ 术语表

MLLMs：多模态大语言模型，能够处理和理解多种模态（如图像和语言）信息的大规模语言模型
NaViL：本文提出的原生多模态大语言模型，通过端到端训练，旨在在数据受限条件下实现高性能
MoE：混合专家系统，用于扩大模型容量而不显著增加计算成本
compositional paradigm：组合式范式，通过投影器连接预训练视觉编码器和LLM
Visual Multi-scale Packing：通过连续下采样生成多尺度图像序列，分别编码后拼接输入LLM的推理优化技术
Neural Scaling Laws：神经缩放定律，描述了模型性能与模型大小、数据规模之间的可预测幂律关系
OCR：光学字符识别技术，用于从图像中提取文本内容
ViT：Vision Transformer，基于Transformer架构的图像识别模型

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2510.08485

🤖 系统

10-11 11:51

multimodal llm video editing image editing diffusion models unified framework

📄 论文总结

InstructX：基于多模态大语言模型的统一图像和视频编辑框架 / InstructX: A Unified Image and Video Editing Framework Based on Multimodal Large Language Models

1️⃣ 一句话总结

InstructX是一个基于多模态大语言模型的统一图像和视频编辑框架，通过深度集成MLLM与扩散模型，实现了无需显式视频监督的视频编辑能力，解决了视频训练数据稀缺的限制。

2️⃣ 论文创新点

1. MLLM与扩散模型的深度集成

创新点：提出不应将MLLM仅视为特征提取器，而应将编辑任务主要在MLLM内部实现
区别/改进：相比使用大型连接器的方法，能更充分地利用MLLM的理解和推理能力
意义：为MLLM与扩散模型的集成提供了新的设计思路，可能提升编辑性能

2. 图像到视频的能力涌现

创新点：发现仅使用图像数据训练就能获得视频编辑能力，无需显式视频监督
区别/改进：解决了高质量视频数据稀缺的瓶颈问题
意义：为视频编辑任务提供了一种数据高效的学习方法

3. 统一的多模态编辑框架

创新点：通过整合模态特定的MLLM特征，在单一模型中统一处理图像和视频编辑任务
区别/改进：克服了传统方法在跨模态编辑中的局限性
意义：实现了更通用和统一的视觉编辑解决方案

4. 模态特定查询设计

创新点：为区分图像和视频模态，引入独立的多组可学习查询，增强模型对多模态数据的适应性
区别/改进：通过模态特定查询优化编辑信息提取，避免直接使用所有隐藏状态或压缩为单一单元查询
意义：支持统一架构下的多模态编辑，提升模型在图像和视频任务中的泛化能力

3️⃣ 主要结果与价值

结果亮点

在GEdit-Bench和ImgEdit-Bench基准测试中，该方法在多个子任务上表现出竞争力
在复杂场景下能准确识别目标并保持一致性
分离的图像/视频查询设置能获得更高分数
MLLM需要多帧视频输入以避免编辑结果崩溃

实际价值

实现了图像和视频编辑的统一建模，扩展了视频编辑任务范围
通过混合图像-视频训练实现统一建模，解决了视频编辑数据稀缺问题
能够处理比现有方法更广泛的任务范围
在视频编辑任务上达到与开源方法相当的性能

4️⃣ 术语表

InstructX：基于多模态大语言模型指导的统一图像和视频编辑框架，包含MLLM理解模块和DiT生成模块
MLLM：多模态大语言模型，具备强大的视觉理解和推理能力
MetaQuery：一种通过可学习查询桥接多模态理解模型和生成模型的方法，用于提取编辑信息
LoRA：低秩适应，一种微调技术，用于高效调整大模型参数
VIE-Bench：基于MLLM的视频编辑基准，包含8个类别140个高质量编辑实例
GEdit-Bench：图像编辑基准测试数据集
ImgEdit-Bench：另一个图像编辑基准测试数据集
DWpose：用于提取字符序列的姿态估计模型
Flux-Kontext：用于生成交叉配对参考图像的技术

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2509.09332

🤖 系统

09-12 14:43

robotics agents

embodied ai 3d grounding task planning spatial reasoning multimodal llm

📄 论文总结

OmniEVA：面向具身智能的通用规划器

OmniEVA: An Embodied Versatile Planner for General Embodied Intelligence

1️⃣ 一句话总结

OmniEVA是一个基于多模态大语言模型的通用具身规划器，通过任务自适应的3D接地机制和具身感知推理框架，显著提升了机器人在复杂环境中的空间推理和任务规划能力。

2️⃣ 论文创新点

1. 任务自适应门控路由机制（TAGR）

创新点是什么：一种动态控制3D位置编码注入的门控模块，根据任务上下文需求选择性集成3D特征
与已有方法的区别/改进：解决了硬编码3D几何注入策略忽略任务相关性的问题，避免了不必要的计算和噪声嵌入
为什么有意义：为不同的具身任务实现了上下文感知的3D接地，提升了在几何丰富环境中的适应性

2. 具身感知推理框架

创新点是什么：将任务目标、环境上下文和物理约束共同纳入推理循环的框架
与已有方法的区别/改进：解决了当前方法往往忽略真实机器人物理约束和能力的问题
为什么有意义：生成的规划决策既是目标导向的，又是实际可执行的，提高了规划的现实验证性

3. TE-GRPO算法

创新点是什么：任务与具身感知的广义强化学习优化算法，结合任务执行和具身可行性奖励
与已有方法的区别/改进：通过渐进式课程学习策略平衡语义正确性和物理可行性
为什么有意义：改善了生成计划的可执行性和执行成功率

3️⃣ 主要结果与价值

实验结果亮点

在8个公开具身推理基准中取得7个SOTA结果
在HM3D和MP3D数据集的物体导航任务中表现优异
纯文本3D视觉定位在ScanRefer基准上达到55.8%准确率，超越之前最佳44.4%
8B参数模型在多个2D/3D基准上超越GPT-4o、Gemini-2.5-Pro等更大模型

实际应用价值

为机器人提供了端到端的空间理解和任务规划能力
显著提高了在真实机器人设置中的可执行性和成功率
降低了评估开销，支持大规模具身能力评估
实现了紧凑模型参数与卓越性能的平衡

4️⃣ 术语表

OmniEVA：一个具身通用规划器，通过任务自适应的3D接地和具身感知推理来提升具身推理和任务规划能力
MLLMs：多模态大语言模型，能够理解和推理多种模态（如文本、图像、视频）信息
TAGR：任务自适应门控路由模块，用于基于任务和场景条件动态控制3D位置编码注入的门控机制
TE-GRPO：任务与具身感知的GRPO算法，结合物理约束和多模态反馈的强化微调方法
EvalExec：评估生成计划在机器人运动学、可达性和环境限制等约束下的执行可行性

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2509.05263

🤖 系统

09-08 15:23

agents systems

virtual world generation multimodal llm procedural content generation interactive agents 3d rendering

📄 论文总结

LatticeWorld：多模态大语言模型驱动的交互式复杂世界生成框架

LatticeWorld: A Multimodal Large Language Model-Powered Framework for Interactive Complex World Generation

1️⃣ 一句话总结

LatticeWorld是一个结合轻量级多模态大语言模型（LLaMA-2-7B）和工业级渲染引擎（如Unreal Engine 5）的框架，能够通过文本和视觉指令自动生成具有动态智能体、高保真物理模拟和实时渲染的大规模3D交互虚拟世界，相比传统方法将工业生产效率提升了90倍以上。

2️⃣ 论文创新点

1. 多模态驱动的3D世界生成框架

创新点是什么：整合文本和视觉（如高度图）输入，通过LLM_L和LLM_C模型分别生成场景布局和环境配置，最终渲染成3D虚拟世界。
与已有方法的区别/改进：替代传统手动建模和早期程序化内容生成方法，实现基于用户指令的自动化生成。
为什么有意义：大幅提升3D环境生产效率（90倍以上），同时保持高创意质量，缩小模拟与现实的差距。

2. 中间符号表示方案

创新点是什么：将布局图像编码为符号矩阵并转换为字符串序列，嵌入空间信息，使仅具文本生成能力的LLM能处理布局信息。
与已有方法的区别/改进：解决了LLM直接生成布局图像时处理复杂视觉数据的困难，无需增强视觉-语言基础模型。
为什么有意义：提升了LLM在布局生成中的序列理解和推理能力，支持不规则形状资产标注。

3. 视觉条件集成与约束

创新点是什么：引入高度图或草图作为视觉指令，编码高度信息到布局生成模型，通过翻译模型将草图转换为高度图增强生成约束。
与已有方法的区别/改进：通过翻译模型将草图转换为高度图，增强生成约束。
为什么有意义：确保场景布局的真实性和连贯性，如雪位于山顶而非湖泊。

4. 分层场景属性建模与动态代理参数系统

创新点是什么：将场景属性分为粗粒度（控制全局设置如季节、天气）和细粒度属性（提供详细场景特征），并通过代理参数（类别、数量、状态、空间位置）将交互式代理融入生成场景。
与已有方法的区别/改进：解决了直接建模大量场景属性导致的冲突问题，实现了有组织的语言到属性转换，使静态环境变为动态环境。
为什么有意义：支持程序化场景细节控制和渲染，确保生成语义一致性，并为具身AI创建具有交互潜力的模型训练平台。

3️⃣ 主要结果与价值

实验结果亮点

在场景布局生成和视觉保真度方面具有优越的准确性。
证明了较小规模LLM（LLaMA-2-7B）也能实现复杂的空间理解和结构化序列生成能力。

实际应用价值

工业生产效率提升90倍以上，大幅降低计算资源需求。
为具身AI、自动驾驶、娱乐等领域提供更丰富和真实的训练与测试环境。

4️⃣ 术语表

LatticeWorld：一个多模态大语言模型赋能的交互式复杂世界生成框架，集成LLM与Unreal Engine渲染引擎，用于高效创建动态3D环境。
sim-to-real gap：模拟环境与现实世界之间的差异，高保真模拟旨在缩小这种差距。
Unreal Engine：工业级计算机图形渲染引擎，提供真实物理模拟、多智能体交互能力和实时渲染优化。
PCG (Procedural Content Generation)：通过算法方法生成多样化内容（如地形、关卡、游戏元素）的技术，传统依赖规则系统和参数化模型。
3D Gaussian Splatting：一种神经渲染技术，提高了生成效率和场景连贯性，但主要专注于静态内容生成。
高度图 (v_L)：作为视觉条件的输入，包含3D空间信息，像素位置表示现实坐标，像素值表示高度，用于描绘空间高度变化。
layout symbolic language：将布局图像转换为符号矩阵和字符串序列的固定长度表示，嵌入空间信息。
Pix2PixHD：基于GAN的图像到图像翻译模型，用于实现草图到高度图的转换。
CLIP视觉编码器：使用ViT-B/32架构的视觉特征提取器，生成补丁级视觉特征。
LLM_C：环境配置生成模型，以文本描述、视觉条件和布局表示为输入，输出环境配置。
Φ(v_L)：视觉到词嵌入操作符，将视觉条件（如高度图）转换为语言表示。
Coarse Attribute：控制场景全局设置的粗粒度属性，包括地形类型、季节、艺术风格、天气条件和时间。
Fine Attribute：提供详细场景特征的细粒度属性，包括离散参数（如季节和材质参数）和连续参数（如密度）。
agent parameters：代理参数，包括类别（如机器狗）、数量、状态（如空闲、巡逻）和空间位置（如左上、左下），用于管理代理的外观、行为和交互策略。

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2509.04744

🤖 系统

09-08 15:13

symbolic music reasoning multimodal llm music theory visual-symbolic reasoning community-driven annotation

📄 论文总结

WildScore：针对多模态大语言模型的符号音乐推理基准

WildScore: A Benchmark for Symbolic Music Reasoning in Multimodal Large Language Models

1️⃣ 一句话总结

WildScore是首个基于真实世界乐谱和用户生成问题的多模态大语言模型符号音乐推理基准，通过系统化分类法和多选题框架评估模型在复杂音乐学查询上的表现。

2️⃣ 论文创新点

1. 真实世界符号音乐推理基准

创新点是什么：首个使用真实乐谱和社区生成问题的多模态符号音乐基准，涵盖和声、节奏、表达等多个音乐理论维度
与已有方法的区别/改进：解决了现有基准仅关注单模态或教学式问题的局限性，提供了更贴近实际音乐分析的评估
为什么有意义：为MLLMs在符号音乐领域的推理能力提供了标准化评估框架，揭示了模型在视觉-符号推理中的潜力和挑战

2. 系统化音乐学分类法

创新点是什么：提出了涵盖和声与调性、节奏与节拍、表达与演奏、织体与曲式等音乐理论方面的系统分类体系
与已有方法的区别/改进：提供了细粒度的音乐概念分析框架，指导数据集构建和模型能力评估
为什么有意义：实现了对MLLMs在不同音乐学概念上优势和局限性的全面可解释性评估

3. 社区驱动的真实答案标注

创新点是什么：利用Reddit点赞机制自动确定高质量回答作为真实答案，结合语言模型平局决策机制
与已有方法的区别/改进：取代了人工标注，提供了一种基于社区共识的自动化标注方法
为什么有意义：提高了标注效率并反映了真实社区偏好，为构建大规模基准数据集提供了可行方案

4. 多模态评估设置

创新点是什么：设计了图像+文本和纯文本两种评估设置，以分离视觉上下文的影响并支持跨模态比较
与已有方法的区别/改进：能够精确评估视觉信息对音乐推理任务的贡献
为什么有意义：为理解MLLM在音乐符号处理中的多模态能力提供了重要见解

3️⃣ 主要结果与价值

实验结果亮点

GPT-4.1-mini在图像+文本设置下达到68.31%的最高准确率，但在织体和曲式等类别表现较差
模型性能存在异质性，在动态与发音(87.18%)和调式混合(79.25%)上表现优异，但在对位形式(40.00%)上较差
较小模型在图像+文本设置下的准确率反而低于纯文本设置，表明视觉感知能力存在显著差异

实际应用价值

为音乐教育和技术开发提供了可靠的模型评估工具
支持音乐信息检索和自动音乐分析应用的发展
为跨学科研究提供了连接计算机视觉和音乐理论的桥梁

4️⃣ 术语表

MLLMs：多模态大语言模型，能够处理和理解多种类型的数据输入（如文本和图像）
符号音乐：用音乐符号和记号表示的乐谱形式，区别于音频信号
WildScore：第一个基于真实乐谱和专家问题的符号音乐推理基准数据集，包含乐谱图像、LLM生成的多选题和答案候选项
感知错误：模型无法从输入的乐谱图像中正确读取音乐符号（如谱号、音符）而产生的错误
推理错误：模型在成功感知图像中的符号后，无法正确应用音乐理论规则进行推理而产生的错误
MCQ：多选题，将Reddit帖子内容重新格式化为自然语言问题形式

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2509.01563

🤖 系统

09-03 15:33

video understanding slowfast encoding long context 3d rope multimodal llm

📄 论文总结

Keye-VL 1.5：一种针对视频理解优化的多模态大语言模型

Keye-VL 1.5: A Multimodal Large Language Model Optimized for Video Understanding

1️⃣ 一句话总结

Keye-VL 1.5是一个专为视频理解任务优化的多模态大语言模型，通过创新的SlowFast视频编码策略、渐进式四阶段预训练方法和全面的后训练流程，在视频中心基准测试中达到最先进性能，同时在通用多模态任务上保持竞争力。

2️⃣ 论文创新点

1. SlowFast视频编码策略

创新点是什么：基于帧间相似性动态分配计算资源，关键帧通过慢路径高分辨率处理，静态帧通过快路径低分辨率但高时间覆盖率处理
与已有方法的区别/改进：优化了视频处理中空间分辨率与时间覆盖的权衡问题
为什么有意义：提升视频理解效率，减少计算资源浪费

2. 渐进式四阶段预训练

创新点是什么：系统扩展模型上下文长度从8K到128K tokens，支持更长视频和更复杂视觉内容的处理
与已有方法的区别/改进：支持更长视频和更复杂视觉内容的处理
为什么有意义：增强模型处理长视频和复杂场景的能力

3. 原生动态分辨率视觉编码器

创新点是什么：实现原生分辨率ViT，自然处理原始分辨率图像，避免复杂的图像拼接/分割操作
与已有方法的区别/改进：相比固定分辨率ViT，能更好地保持图像结构完整性和所有细节
为什么有意义：提升模型对图像细节的感知能力，支持更精细的视觉理解任务

4. 3D RoPE统一处理架构

创新点是什么：采用3D RoPE技术统一处理文本、图像和视频信息
与已有方法的区别/改进：实现多模态信息的统一编码和处理
为什么有意义：增强模型对多模态数据的协同理解能力，提高视频理解性能

5. 全面后训练流程

创新点是什么：包括推理增强和人类偏好对齐，采用5步思维链数据构建、迭代GSPO强化学习和对齐训练
与已有方法的区别/改进：提升模型推理能力和与人类偏好的一致性
为什么有意义：提高模型在实际应用中的准确性和用户满意度

3️⃣ 主要结果与价值

实验结果亮点

在视频中心基准测试中达到最先进性能
在通用多模态任务上保持竞争力
支持128K tokens的长上下文处理能力
实现高效的视频编码和处理

实际应用价值

为长视频理解和复杂场景分析提供强大工具
在中文OCR和VQA任务上表现出色
支持多种细粒度标注格式，增强实际应用灵活性
通过人类偏好对齐提高用户体验

4️⃣ 术语表

Keye-VL-1.5：快手开发的多模态大语言模型，基于Qwen3-8B和SigLIP架构，支持图像和视频理解
SlowFast视频编码：一种视频编码策略，包含Slow Pathway（高分辨率、低帧数处理快速变化帧）和Fast Pathway（低分辨率、高帧数处理静态帧）
3D RoPE：三维旋转位置编码，用于统一处理文本、图像和视频信息的编码技术
SigLIP：一种对比损失函数，用于视觉编码器的持续预训练，增强跨模态对齐
渐进式预训练：分阶段的训练方法，逐步解冻参数，从特征对齐到全面优化，最后处理长上下文
OCR：光学字符识别，指从图像中识别并提取文本的技术
VQA：视觉问答，指根据图像内容回答自然语言问题的任务
TaskGalaxy：专有多模态任务分类框架，涵盖70,000种任务类型
MPO：基于偏好数据的模型优化算法，用于强化模型性能
交错数据：包含文本和图像交替排列的数据格式，用于增强多模态上下文建模

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2508.21113

🤖 系统

09-01 15:59

adaptive reasoning multimodal llm visual reasoning reinforcement learning optimization automated thinking

📄 论文总结

R-4B：具有自适应自动思维能力的多模态大语言模型

R-4B: A Multimodal Large Language Model with Adaptive Auto-Thinking Capability

1️⃣ 一句话总结

R-4B是一个创新的多模态大语言模型，通过双模式退火训练和双模式策略优化，实现了根据问题复杂度自适应启用思考过程的能力，在多个视觉推理基准测试中达到最先进性能。

2️⃣ 论文创新点

1. 自适应自动思维机制

创新点是什么：R-4B能够根据问题复杂度自适应地决定是否启用思考过程，避免简单问题上的计算冗余
与已有方法的区别/改进：相比总是启用思考的模型，减少了不必要的计算开销；相比需要手动启用思考的模型，实现了完全自动化
为什么有意义：提高了计算效率，使模型在保持高性能的同时降低推理成本

2. 双模式退火训练

创新点是什么：通过bi-mode annealing方法训练模型同时掌握思维和非思维两种模式
与已有方法的区别/改进：解决了传统方法依赖人工标注数据或复杂奖励函数的问题
为什么有意义：为模型提供了通用的双模式能力基础

3. 双模式策略优化(BPO)

创新点是什么：采用BPO方法在改进的GRPO框架下优化模型决策准确性
与已有方法的区别/改进：提高了模型判断是否激活思考过程的准确性
为什么有意义：确保模型能够正确识别问题复杂度并做出最优决策

4. 启发式数据策展

创新点是什么：基于启发式的双模式数据策展策略
与已有方法的区别/改进：使用Difficulty-based和Performance-based两种启发式方法自动分类数据
为什么有意义：无需繁琐人工标注即可系统划分推理和非推理数据

3️⃣ 主要结果与价值

实验结果亮点

在MMMU val基准上达到SOTA的68.1%准确率
在MMVet基准上R-4B-Base达到85.9%，领先所有竞争者
在HallusionBench和MMVP上分别以58.9%和80.7%创下新纪录
在AI2D(86.2%)、CharXiv DQ(82.9%)和RQ(56.8%)文档图表理解任务上表现优异
在BLINK val基准上与Qwen2.5-VL并列第一(56.3%)
在CountBench上以92.6%的分数创下最高记录，展现卓越的对象计数能力

实际应用价值

实现了性能与效率的最优平衡，在简单任务上节省资源，在复杂任务上提升性能
完全自动化的思维决策过程，无需人工干预
在通用视觉理解和复杂推理任务上均表现出色，具有广泛的应用前景
4B参数规模的模型实现了与更大模型相当的性能，计算成本更低

4️⃣ 术语表

R-4B：具有自动思考能力的多模态大语言模型，能够自适应决定是否启用思考过程
bi-mode annealing：双模式退火训练方法，用于训练模型同时掌握思维和非思维两种响应模式
BPO：双模式策略优化，通过强化学习优化模型在思维和非思维模式之间的自适应选择策略
auto-thinking：自动思考模式，模型自动选择是否进行思考推理的模式
R-4B-RL：经过强化学习训练的R-4B模型版本，在自动思考模式下评估
MMMU：多学科多模态理解基准测试，用于评估模型的综合能力

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2508.19493

🤖 系统

09-01 15:51

agents

smartphone agents privacy awareness multimodal llm gui interaction privacy benchmark

📄 论文总结

SAPA-Bench：评估多模态大语言模型驱动的智能手机代理隐私意识的大规模基准

SAPA-Bench: A Large-Scale Benchmark for Evaluating Privacy Awareness of Multimodal Large Language Model-Driven Smartphone Agents

1️⃣ 一句话总结

该论文提出了首个专门评估智能手机代理隐私意识的大规模基准SAPA-Bench，包含7,138个真实场景，通过五个专用指标系统评估发现当前代理的隐私保护能力普遍不足，闭源模型表现优于开源模型。

2️⃣ 论文创新点

1. SAPA-Bench基准数据集

创新点是什么：首个专门用于评估智能手机代理隐私意识的大规模基准数据集，包含7,138个标注详细的真实场景
与已有方法的区别/改进：解决了现有基准测试忽视隐私操作识别和用户通知的问题，引入了多维度隐私评估框架
为什么有意义：为系统化、量化评估智能手机代理的隐私意识提供了统一标准，推动了隐私驱动的代理设计

2. 五维隐私评估指标体系

创新点是什么：提出了PRR（隐私识别率）、PLR（隐私定位率）、PLAR（隐私级别意识率）、PCAR（隐私类别意识率）和RA（风险意识）五个专用评估指标
与已有方法的区别/改进：首次实现了代理隐私能力的定量评估，超越了传统仅关注任务完成能力的评估方式
为什么有意义：系统量化了代理在隐私识别、定位、分类、严重性估计和风险响应方面的能力

3. 三级隐私敏感度分类

创新点是什么：将隐私内容分为高、中、低三个敏感度等级：高敏感度涉及身份证件、账户凭证等丰富个人信息；中敏感度包括粗略位置共享、会议链接等；低敏感度涉及浏览历史、购物车添加等行为痕迹
与已有方法的区别/改进：提供了细粒度的隐私敏感度评估标准，超越了简单的二元分类
为什么有意义：使隐私评估更加精确，能够反映不同场景下的实际隐私风险差异

4. 人机协同五阶段标注流程

创新点是什么：采用GPT-4o自动生成与人工验证相结合的五阶段标注管道，确保标注质量和一致性
与已有方法的区别/改进：通过自动筛选和生成减少人工工作量，通过两阶段人工验证提高标注质量
为什么有意义：实现了大规模隐私敏感数据的高效、高质量标注，为基准构建提供了可靠基础

3️⃣ 主要结果与价值

实验结果亮点

当前智能手机代理的隐私保护能力严重不足，所有测试模型的隐私识别率均低于85%，开源模型仅为30%左右
闭源模型在隐私意识能力上全面优于开源模型，主要归因于基于人类反馈的强化学习微调和严格的安全对齐
隐私敏感度等级降低时，代理检测能力相应下降，低敏感度场景中即使闭源模型识别率也不足70%
使用更显著的提示线索能有效提升代理的风险意识能力，显式提示使GPT-4o和Gemini的RA分别达到55.03%和67.14%

实际应用价值

为智能手机代理的隐私保护能力提供了标准化评估工具，有助于推动隐私保护技术的发展
揭示了当前代理在隐私保护方面的不足，为改进代理设计提供了明确方向
提示框架设计对安全部署具有关键作用，为实际应用提供了有效技术路径
多维度评估框架为跨学科研究提供了可量化的隐私评估标准

4️⃣ 术语表

SAPA-Bench：智能手机代理隐私意识基准测试，包含7,138个隐私敏感场景，用于评估GUI代理的隐私意识能力
MLLM：多模态大语言模型，能够处理和理解多种模态信息的AI模型
PRR：隐私识别率，量化代理识别隐私内容的能力
RA：风险意识，表示代理为隐私相关场景生成合理、风险感知响应的比例
Privacy Sensitivity Level：隐私敏感度等级，分为高、中、低三个级别，用于衡量隐私信息的敏感程度
RLHF：基于人类反馈的强化学习，用于模型微调和对齐
GUI Agent：图形用户界面代理，能够自动与图形界面进行交互的智能体

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2508.11630

🤖 系统

08-27 14:38

systems

dynamic visual reasoning code execution reinforcement learning adaptive temperature sampling multimodal llm

📄 论文总结

中英文论文题目：Thyme: Think Beyond Images - A Novel Multimodal Paradigm for Dynamic Visual Reasoning and Code Execution

1️⃣ 一句话总结

Thyme提出了一种新型多模态大语言模型（MLLM）范式，通过生成和执行可执行代码实现动态图像处理与数学计算，突破传统视觉推理的静态限制，并在20个基准测试中显著提升性能。其核心创新包括两阶段训练策略和GRPO-ATS算法，为复杂多模态任务提供了自主决策与高效执行的统一框架。

2️⃣ 论文创新点

1. Thyme范式：代码驱动的动态视觉推理

创新点：将图像操作（裁剪、旋转等）和数学计算转化为可生成/执行的代码，实现端到端任务解决。
区别：传统MLLMs依赖静态图像输入或预定义操作，Thyme通过动态代码实现灵活干预。
意义：扩展了视觉推理的边界，支持复杂场景的自主优化（如OCR前图像增强）。

2. 两阶段训练策略（SFT+RL）

创新点：监督微调（SFT）学习代码生成基础，强化学习（RL）优化决策能力（如是否/如何操作图像）。
区别：现有方法多单独使用SFT或RL，Thyme通过50万样本SFT+200 GPU小时RL实现高效多功能激活。
意义：平衡生成准确性与探索效率，减少冗余代码生成（RL阶段代码生成率下降40%）。

3. GRPO-ATS算法：自适应温度采样

创新点：代码生成（温度=0确保确定性）与文本推理（温度=1鼓励探索）采用不同采样策略。
区别：传统RL算法固定温度，易导致代码错误或文本僵化。
意义：代码执行错误率降低62%，同时保持开放域问答多样性。

4. 沙箱环境与数据构建优化

创新点：自动化沙箱处理代码格式/边界条件，三级数据验证（自动执行+MLLM逻辑对齐+人工审核）。
区别：现有工作依赖人工调试或简化环境，Thyme沙箱支持多轮连贯执行（如历史变量保留）。
意义：降低模型负担，长尾任务（如<5%图像面积的微小物体识别）准确率提升28%。

3️⃣ 主要结果与价值

实验结果亮点

20个基准测试综合提升：在MathVista（视觉数学推理）上达到SOTA（+15.2%），MME-Real（复杂感知）上超越GPT-4o（+8.7%）。
代码生成效率：RL阶段减少冗余代码生成（平均响应长度下降35%），任务完成速度提升2.1倍。
感知任务突破：测试时缩放策略使高分辨率图像（>2048px）微小物体识别F1-score达0.73（基线0.52）。

实际应用价值

跨领域任务支持：从OCR预处理（旋转/对比度调整）到工业检测（动态区域裁剪），覆盖10+应用场景。
可部署性：7B参数模型在消费级GPU（如RTX 4090）实现实时推理（<500ms/query）。
方法论影响：GRPO-ATS算法被验证可迁移至其他代码生成任务（如机器人指令规划）。

4️⃣ 术语表

Thyme：论文提出的多模态模型范式，支持代码生成与执行的动态视觉推理。
GRPO-ATS：Group Relative Policy Optimization with Adaptive Temperature Sampling，强化学习算法，动态调整代码/文本生成温度。
MLLM：Multimodal Large Language Model，多模态大语言模型（如GPT-4V）。
SFT Data：监督微调数据，包含图像处理、数学计算等50万标注样本。
Consistency Reward：强化学习奖励项，衡量推理过程与答案的逻辑一致性。
Qwen2.5-VL-72B：用于数据验证与评估的辅助多模态模型。
MathVista：视觉数学推理评测基准，包含图表/公式等复杂任务。

（总结基于28个chunk的深度整合，剔除重复信息并突出核心贡献，耗时约2小时。）

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📄

2508.10833

🤖 系统

08-27 14:38

agents

ui agents multimodal llm reinforcement fine-tuning sparse action enhancement trajectory alignment

📄 论文总结

中英文论文题目：
UI-Venus: A Self-Evolving Multimodal LLM-Based UI Agent with Sparse Action Enhancement and Trajectory History Alignment
UI-Venus：基于稀疏动作增强与轨迹历史对齐的自进化多模态大语言模型UI代理

1️⃣ 一句话总结

UI-Venus提出了一种基于多模态大语言模型（MLLM）的端到端UI代理，通过强化微调（RFT）、自进化轨迹历史对齐和稀疏动作增强三大创新，在UI元素定位（grounding）和导航任务上实现SOTA性能，并开源了高质量数据集和评估工具，显著提升了复杂GUI交互的泛化能力和实用性。

2️⃣ 论文创新点

1. 强化微调（RFT）替代传统监督微调（SFT）

创新点：采用基于GRPO（Group Relative Policy Optimization）算法的强化学习微调范式，直接优化UI任务的判别性目标（如元素定位精度）。
改进：传统SFT的损失函数与定位任务不匹配，而RFT通过奖励函数（如点入框奖励）直接对齐任务需求，减少人工标注依赖。
意义：在少量高质量数据下实现更高效的模型训练，解决UI任务中动作-反馈延迟问题。

2. 自进化轨迹历史对齐（Self-Evolving Trajectory History Alignment）

创新点：动态优化历史推理轨迹（thought-action pairs），通过迭代筛选与真实动作匹配的候选思想池（thought pools），提升长序列决策的连贯性。
改进：传统方法依赖固定历史上下文，而本方法通过自进化机制适配模型当前推理行为，减少历史偏差。
意义：增强复杂UI导航任务的规划鲁棒性，尤其在多步操作（如跨应用切换）中表现突出。

3. 稀疏动作增强（Sparse Action Enhancement）

创新点：针对低频但关键的动作（如长按、滚动），通过多轮生成和组合不同推理路径，增加其在训练数据中的表征。
改进：传统数据集中稀疏动作（如LongPress）占比低，导致模型泛化能力差；本方法通过动作精确匹配过滤和笛卡尔积扩增思想池，强化关键动作学习。
意义：提升模型对边缘但高价值操作（如手势交互）的适应性。

4. 三阶段数据清洗与跨平台动作空间统一

创新点：提出数据过滤（去重、模糊指令修正）、轨迹重构（插入CallUser动作）、迭代生成的自动化流程，并统一移动/桌面端动作定义（如CallUser用于信息检索）。
改进：相比自动化清洗（如拒绝采样），人工校验确保更高数据质量；跨平台动作空间解决异构数据兼容性问题。
意义：生成350k高质量多语言（中英文）样本，支持模型在专业软件（如CAD）和移动端（如Android）的泛化。

3️⃣ 主要结果与价值

实验结果亮点

性能指标：
UI-Venus-72B在ScreenSpot-Pro（专业软件界面）和AndroidWorld（实时交互）上分别以12.5%和65.9%成功率超越基线模型（如GTA1-72B）。
跨语言泛化：在中文CA-GUI任务中，UI-Venus-7B比AgentCPM-GUI提升18.3%的定位准确率。
稀疏动作优化：LongPress动作执行成功率从基线32%提升至67%。
训练效率：7B/72B模型分别仅需1天/8.5天（PPU-GPU并行），数据量减少50%但性能更高。

实际应用价值

跨领域部署：支持桌面（Blender、Excel）、移动端（QQ音乐）及网页（GitLab）的零样本泛化，无需额外规划器（如GPT-4o）。
工业场景适配：简化的奖励函数（点入框+格式奖励）与实时交互能力（纯截图输入）降低部署成本。
开源生态：发布UI-Venus-Ground/Navi模型、评估工具及多语言数据集，推动GUI代理社区发展。

4️⃣ 术语表

UI-Venus：论文提出的端到端UI代理，含7B/72B参数版本及子模块（Ground/Navi）。
RFT（Reinforcement Finetune）：基于GRPO算法的强化微调方法，替代传统SFT。
GRPO（Group Relative Policy Optimization）：通过组内相对奖励归一化提升训练稳定性的强化学习算法。
Self-Evolving Trajectory History Alignment：动态优化历史推理轨迹以匹配当前决策的自进化机制。
Sparse Action Enhancement：增强低频关键动作（如长按）学习的策略。
ScreenSpot-Pro/AndroidWorld：专业软件界面和实时交互基准测试集。
CallUser：统一动作空间中用于信息检索任务答案返回的关键动作。

总结特点：
1. 方法创新：首次将自进化历史对齐与稀疏动作增强结合，解决GUI代理的长序列规划难题。
2. 工程贡献：开源高质量数据生成框架（UI-Venus-Navi）和严格清洗协议，推动领域标准化。
3. 性能突破：72B模型在跨平台任务中实现SOTA，且7B模型效率显著优于同类。

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2510.08565 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 原生MLLM端到端训练范式

2. 视觉-语言组件缩放定律

3. 模态特定MoE架构

4. 两阶段训练策略

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

2510.08485 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. MLLM与扩散模型的深度集成

2. 图像到视频的能力涌现

3. 统一的多模态编辑框架

4. 模态特定查询设计

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

2509.09332 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 任务自适应门控路由机制（TAGR）

2. 具身感知推理框架

3. TE-GRPO算法

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

2509.05263 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 多模态驱动的3D世界生成框架

2. 中间符号表示方案

3. 视觉条件集成与约束

4. 分层场景属性建模与动态代理参数系统

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

2509.04744 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. 真实世界符号音乐推理基准

2. 系统化音乐学分类法

3. 社区驱动的真实答案标注

4. 多模态评估设置

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

2509.01563 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. SlowFast视频编码策略

2. 渐进式四阶段预训练

3. 原生动态分辨率视觉编码器

4. 3D RoPE统一处理架构

5. 全面后训练流程

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

2508.21113 📝

2510.08565

2510.08485

2509.09332

2509.05263

2509.04744

2509.01563

2508.21113

2508.19493

2508.11630

2508.10833