arXiv ID:
2512.15431
Step-GUI技术报告 / Step-GUI Technical Report
1️⃣ 一句话总结
这篇论文提出了一套低成本、高准确率的自进化训练方法来开发图形界面智能助手,并设计了新的标准化接口和真实场景测试基准,让AI能更安全、高效地帮我们操作手机和电脑上的各种应用。
Step-GUI技术报告 / Step-GUI Technical Report
这篇论文提出了一套低成本、高准确率的自进化训练方法来开发图形界面智能助手,并设计了新的标准化接口和真实场景测试基准,让AI能更安全、高效地帮我们操作手机和电脑上的各种应用。
利用MetaCanvas探索多模态大语言模型与扩散模型的信息传递 / Exploring MLLM-Diffusion Information Transfer with MetaCanvas
这篇论文提出了一个名为MetaCanvas的轻量级框架,它能让强大的多模态大语言模型直接在图像和视频的潜在空间中进行推理与规划,从而更精确地控制扩散模型生成内容,有效缩小了多模态理解与生成能力之间的差距。
DentalGPT:激励牙科领域多模态复杂推理 / DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry
这篇论文提出了一个名为DentalGPT的牙科专用多模态大模型,它通过注入高质量牙科数据和强化学习,显著提升了模型对牙科图像的细节理解与复杂推理能力,从而在疾病分类和问答任务上超越了其他先进模型。
重新思考视频的思维链推理 / Rethinking Chain-of-Thought Reasoning for Videos
这篇论文提出,在视频理解任务中,使用简短推理和压缩的视觉信息,而非冗长的思维链,就能达到高效且具有竞争力的效果,从而挑战了传统上认为需要复杂、类人推理过程的观点。
START:用于图表理解的空间与文本学习 / START: Spatial and Textual Learning for Chart Understanding
这篇论文提出了一个名为START的新方法,通过同时学习图表的视觉空间布局和底层数据文本信息,显著提升了多模态大语言模型对图表的理解能力,并在新构建的基准测试上取得了领先性能。
EditThinker:为任意图像编辑器解锁迭代推理能力 / EditThinker: Unlocking Iterative Reasoning for Any Image Editor
这篇论文提出了一个名为EditThinker的‘边思考边编辑’框架,通过让AI在编辑图像时像人一样反复审视结果、分析问题并优化指令,从而显著提升了各种现有图像编辑模型对用户指令的理解和执行准确性。
主动视频感知:面向智能体长视频理解的迭代式证据搜寻 / Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding
这篇论文提出了一个名为‘主动视频感知’的新框架,它让AI像侦探一样,在观看长视频时能主动、有选择地寻找与问题相关的关键视觉证据,从而用更少的计算量实现更准确的长视频理解。
COOPER:空间智能中协同感知与推理的统一模型 / COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence
这篇论文提出了一个名为COOPER的统一多模态大语言模型,它通过整合深度和分割信息来增强空间感知能力,并采用自适应交替推理策略,从而显著提升了模型对三维空间关系的理解和推理性能。
OneThinker:面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video
这篇论文提出了一个名为OneThinker的统一模型,它能够同时处理图像和视频的多种核心视觉理解任务(如问答、描述、定位和分割),并通过创新的训练方法解决了多任务学习中的奖励不平衡问题,在多个基准测试上表现出色,向通用的多模态推理专家迈进了一步。
REASONEDIT:迈向推理增强的图像编辑模型 / REASONEDIT: Towards Reasoning-Enhanced Image Editing Models
这篇论文提出了一种名为ReasonEdit的新框架,通过解锁大型多模态语言模型的推理能力,让AI在编辑图片时能像人一样先思考指令、再检查结果并自动修正错误,从而显著提升了图像编辑的准确性和效果。
请先 登录 后再提交论文