对抗性混淆攻击:扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法,它通过向图像中添加微小的、人眼难以察觉的干扰,就能让多模态大语言模型(如GPT-5.1)产生混乱或自信的错误回答,从而破坏AI代理的可靠运行。
请先 登录 后再提交论文
对抗性混淆攻击:扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models
这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法,它通过向图像中添加微小的、人眼难以察觉的干扰,就能让多模态大语言模型(如GPT-5.1)产生混乱或自信的错误回答,从而破坏AI代理的可靠运行。
用编程视觉思考:迈向图像思维的统一视图 / Thinking with Programming Vision: Towards a Unified View for Thinking with Images
这篇论文发现当前多模态大模型处理图像时非常脆弱,容易受方向变化等简单干扰影响,为此提出了一个名为CodeVision的新框架,让模型通过生成代码来灵活调用各种图像处理工具,并通过两阶段训练方法显著提升了模型的鲁棒性、工具组合能力和错误恢复能力。
Script:面向多模态大语言模型的图结构与查询条件语义令牌剪枝方法 / Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models
本文提出了一种名为Script的即插即用令牌剪枝方法,通过结合图结构剪枝和查询条件语义剪枝,在无需重新训练的情况下,显著提升了多模态大模型处理图像和视频时的计算效率与任务准确性。
从像素到感受:对齐多模态大语言模型与人类对图像的认知感知 / From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images
这篇论文通过构建一个评估基准和提出一种后训练方法,成功让多模态大模型学会像人类一样感知图像的主观特性(如是否令人难忘、有趣或美观),并证明了这种能力能有效提升图像生成等下游任务的人本化水平。
SO-Bench:多模态大语言模型的结构化输出评估 / SO-Bench: A Structural Output Evaluation of Multimodal LLMs
这篇论文提出了一个名为SO-Bench的新基准,专门用于评估多模态大语言模型根据视觉信息生成符合预定数据格式(如JSON)的结构化输出的能力,发现现有模型在此方面仍有不足,并通过训练实验展示了改进的可能性。
Monet:超越图像和语言的潜在视觉空间推理 / Monet: Reasoning in Latent Visual Space Beyond Images and Language
这篇论文提出了一个名为Monet的训练框架,通过让多模态大语言模型直接在潜在视觉空间中生成连续的视觉思维嵌入来进行推理,并针对训练挑战设计了专门的优化方法,显著提升了模型在真实世界感知和抽象视觉推理任务上的性能。
MVU-Eval:面向多模态大语言模型的多视频理解评估 / MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
这篇论文提出了首个多视频理解评估基准MVU-Eval,通过涵盖近5000个视频的1800多个问题,系统评估多模态大模型在跨视频感知与推理方面的能力,揭示了现有模型在处理多视频任务时的显著不足。
MathSE:通过自演进迭代反思与奖励引导微调提升多模态数学推理能力 / MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning
这篇论文提出了一个名为MathSE的自演进框架,通过推理、反思和奖励反馈的循环迭代,显著提升了多模态大语言模型在复杂数学问题上的解决能力。
VideoSSR:视频自监督强化学习 / VideoSSR: Video Self-Supervised Reinforcement Learning
本研究提出了一种名为VideoSSR的视频自监督强化学习框架,通过设计三种无需人工标注的自监督任务来生成高质量训练数据,有效提升了多模态大语言模型在多种视频理解任务上的性能,平均提升超过5%。
ChartM³:用于图表理解中多维多步视觉推理数据构建的多阶段代码驱动流程 / ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension
本研究开发了一个自动化代码驱动流程,用于生成多样化的图表视觉推理数据集,有效提升了小型模型在复杂图表理解和跨领域泛化任务上的性能,使其能够媲美更大规模的模型。