arXiv ID:
2605.13527
arXiv 提交日期: 2026-05-13
MMSkills:面向通用视觉智能体的多模态技能 / MMSkills: Towards Multimodal Skills for General Visual Agents
1️⃣ 一句话总结
本文提出了一种名为MMSkills的框架,通过将视觉智能体的操作经验打包成包含文本步骤、状态卡片和多视角关键帧的多模态技能包,使智能体在推理时能结合视觉证据做出决策,从而显著提升其在图形界面和游戏等场景中的表现。