OneThinker:面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video
1️⃣ 一句话总结
这篇论文提出了一个名为OneThinker的统一模型,它能够同时处理图像和视频的多种核心视觉理解任务(如问答、描述、定位和分割),并通过创新的训练方法解决了多任务学习中的奖励不平衡问题,在多个基准测试上表现出色,向通用的多模态推理专家迈进了一步。
请先 登录 后再提交论文
OneThinker:面向图像与视频的一体化推理模型 / OneThinker: All-in-one Reasoning Model for Image and Video
这篇论文提出了一个名为OneThinker的统一模型,它能够同时处理图像和视频的多种核心视觉理解任务(如问答、描述、定位和分割),并通过创新的训练方法解决了多任务学习中的奖励不平衡问题,在多个基准测试上表现出色,向通用的多模态推理专家迈进了一步。
CaptionQA:你的图像描述是否和图像本身一样有用? / CaptionQA: Is Your Caption as Useful as the Image Itself?
本文提出了一个名为CaptionQA的新基准,通过量化图像描述(caption)在多大程度上能替代原始图像以支持下游任务(如检索、推荐、具身AI等),来评估描述的质量,揭示了当前最先进模型生成的描述在实用性上与原始图像存在显著差距。
REASONEDIT:迈向推理增强的图像编辑模型 / REASONEDIT: Towards Reasoning-Enhanced Image Editing Models
这篇论文提出了一种名为ReasonEdit的新框架,通过解锁大型多模态语言模型的推理能力,让AI在编辑图片时能像人一样先思考指令、再检查结果并自动修正错误,从而显著提升了图像编辑的准确性和效果。
OralGPT-Omni:一个多功能牙科多模态大语言模型 / OralGPT-Omni: A Versatile Dental Multimodal Large Language Model
这篇论文提出了首个专门用于牙科领域的多模态大语言模型OralGPT-Omni,它通过模仿牙医诊断思维的数据集和训练方法,能够准确理解和分析多种牙科影像,并在权威评测中表现优异,推动了牙科人工智能的发展。
Omni-AVSR:基于大语言模型的统一多模态语音识别 / Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models
这项研究提出了一个名为Omni-AVSR的统一多模态语音识别模型,它能够用一个单一模型同时处理音频、视觉及音视频结合的语音识别任务,在保持高精度的同时大幅降低了训练和部署成本,并具备适应不同效率需求的弹性推理能力。
SIMS-V:面向空间视频理解的模拟指令调优 / SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding
该论文提出了一种利用3D模拟器生成空间丰富视频数据的方法,仅需少量模拟示例就能有效训练视频语言模型,使其在现实世界空间推理任务中超越更大模型并媲美商业模型。
ReLook:基于视觉的多模态大语言模型批评器与强化学习结合的自主网页编程框架 / ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding
这篇论文提出了一个名为ReLook的智能网页编程系统,它通过结合视觉反馈和多模态大语言模型,让AI能够像人类一样根据网页实际显示效果不断诊断和优化代码,从而显著提升前端开发的质量。
InstructX:基于多模态大语言模型引导的统一视觉编辑框架 / InstructX: Towards Unified Visual Editing with MLLM Guidance
这篇论文提出了一个名为InstructX的统一框架,通过巧妙结合多模态大语言模型和扩散模型,实现了仅用图像数据训练就能同时处理图像和视频编辑任务,并在多种编辑任务中取得了领先性能。
LatticeWorld:一个多模态大语言模型赋能的交互式复杂世界生成框架 / LatticeWorld: A Multimodal Large Language Model-Empowered Framework for Interactive Complex World Generation
这项研究提出了一个名为LatticeWorld的高效3D世界生成框架,它利用轻量级大语言模型和先进渲染引擎,通过文本和图像指令快速创建具有动态交互、高精度物理模拟和大规模场景的虚拟环境,相比传统手工方法生产效率提升超过90倍。
Kwai Keye-VL 1.5 技术报告 / Kwai Keye-VL 1.5 Technical Report
这篇论文提出了Keye-VL-1.5模型,它通过创新的慢快视频编码、渐进式预训练和综合后训练方法,显著提升了视频理解能力,在保持通用多模态任务竞争力的同时,特别擅长处理动态复杂的视频内容。