arXiv ID:
2511.11005
借助视觉专家进行草拟与精修 / Draft and Refine with Visual Experts
1️⃣ 一句话总结
这项研究提出了一种新方法,通过量化模型对图像信息的依赖程度并引入视觉专家反馈,有效减少了大型视觉语言模型在回答时凭空捏造内容的问题,从而提高了答案的准确性和可靠性。
借助视觉专家进行草拟与精修 / Draft and Refine with Visual Experts
这项研究提出了一种新方法,通过量化模型对图像信息的依赖程度并引入视觉专家反馈,有效减少了大型视觉语言模型在回答时凭空捏造内容的问题,从而提高了答案的准确性和可靠性。
听力障碍翻译个人助手 / HI-TransPA: Hearing Impairments Translation Personal Assistant
这项研究开发了一个名为HI-TransPA的多模态AI助手,它通过结合听障人士模糊的语音和唇部动态,在一个统一框架内实现精准的语音翻译和对话,有效提升了听障人士的日常沟通能力。
测试时频谱感知的潜在空间导向:实现视觉语言模型的零样本泛化 / Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models
这项研究提出了一种无需修改核心模型或反向传播的轻量级方法,通过在测试时分析文本特征的频谱模式并微调少量参数来提升视觉语言模型在未知数据上的表现,同时大幅提高了推理速度和内存效率。
MMaDA-并行:用于思维感知编辑与生成的多模态大扩散语言模型 / MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
这项研究提出了一种并行多模态扩散框架,通过让文本和图像在生成过程中持续双向交互,有效解决了传统序列模型因错误传播导致的图文不一致问题,显著提升了思维感知图像合成的质量。
WMPO:基于世界模型的视觉-语言-动作模型策略优化 / WMPO: World Model-based Policy Optimization for Vision-Language-Action Models
这项研究提出了一种名为WMPO的新方法,让机器人能够通过内部模拟学习改进自身动作,无需在真实环境中反复试错,从而更高效地掌握复杂操作技能并具备自我纠错能力。
VADER:利用关系感知大语言模型实现因果视频异常理解 / VADER: Towards Causal Video Anomaly Understanding with Relation-Aware Large Language Models
这项研究提出了一个名为VADER的智能框架,通过结合大语言模型与视频中物体间的动态关系分析,不仅能识别异常行为,还能深入解释异常事件的因果缘由,显著提升了视频异常理解的准确性和可解释性。
Omni-AVSR:基于大语言模型的统一多模态语音识别 / Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models
这项研究提出了一个名为Omni-AVSR的统一多模态语音识别模型,它能够用一个单一模型同时处理音频、视觉及音视频结合的语音识别任务,在保持高精度的同时大幅降低了训练和部署成本,并具备适应不同效率需求的弹性推理能力。
MVU-Eval:面向多模态大语言模型的多视频理解评估 / MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
这篇论文提出了首个多视频理解评估基准MVU-Eval,通过涵盖近5000个视频的1800多个问题,系统评估多模态大模型在跨视频感知与推理方面的能力,揭示了现有模型在处理多视频任务时的显著不足。
MPJudge:面向音乐诱导绘画的感知评估 / MPJudge: Towards Perceptual Assessment of Music-Induced Paintings
本文提出了一种评估音乐与绘画感知一致性的新方法MPJudge,通过构建首个大规模专家标注数据集和引入偏好优化训练,有效解决了现有方法依赖情绪识别而忽略更广泛感知线索的问题。
Wasm:构建结构化阿拉伯语交错多模态语料库的流程 / Wasm: A Pipeline for Constructing Structured Arabic Interleaved Multimodal Corpora
这篇论文提出了一个名为Wasm的数据处理流程,专门用于从网络数据中构建高质量、结构完整的阿拉伯语多模态数据集,填补了该语言在保留文档结构的多模态数据资源上的空白。
请先 登录 后再提交论文