arXiv最新AI论文速览速学

📄

2511.20494

🤖 系统

12-05 15:05

multi-modal llm model evaluation

adversarial attack multimodal llms security model disruption transferability

对抗性混淆攻击：扰乱多模态大语言模型 / Adversarial Confusion Attack: Disrupting Multimodal Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘对抗性混淆攻击’的新威胁方法，它通过向图像中添加微小的、人眼难以察觉的干扰，就能让多模态大语言模型（如GPT-5.1）产生混乱或自信的错误回答，从而破坏AI代理的可靠运行。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.03746

🤖 系统

12-04 14:34

multi-modal model training model evaluation

multimodal llms code-as-tool robustness evaluation reinforcement learning tool composition

用编程视觉思考：迈向图像思维的统一视图 / Thinking with Programming Vision: Towards a Unified View for Thinking with Images

1️⃣ 一句话总结

这篇论文发现当前多模态大模型处理图像时非常脆弱，容易受方向变化等简单干扰影响，为此提出了一个名为CodeVision的新框架，让模型通过生成代码来灵活调用各种图像处理工具，并通过两阶段训练方法显著提升了模型的鲁棒性、工具组合能力和错误恢复能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2512.01949

🤖 系统

12-03 16:07

multi-modal model training model evaluation

token pruning multimodal llms efficiency optimization graph-structured pruning query-conditioned pruning

Script：面向多模态大语言模型的图结构与查询条件语义令牌剪枝方法 / Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models

1️⃣ 一句话总结

本文提出了一种名为Script的即插即用令牌剪枝方法，通过结合图结构剪枝和查询条件语义剪枝，在无需重新训练的情况下，显著提升了多模态大模型处理图像和视频时的计算效率与任务准确性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.22805

🤖 系统

12-01 14:59

multi-modal model evaluation benchmark

multimodal llms human alignment cognitive perception image understanding post-training

从像素到感受：对齐多模态大语言模型与人类对图像的认知感知 / From Pixels to Feelings: Aligning MLLMs with Human Cognitive Perception of Images

1️⃣ 一句话总结

这篇论文通过构建一个评估基准和提出一种后训练方法，成功让多模态大模型学会像人类一样感知图像的主观特性（如是否令人难忘、有趣或美观），并证明了这种能力能有效提升图像生成等下游任务的人本化水平。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.21750

🤖 系统

12-01 14:45

multi-modal model evaluation benchmark

multimodal llms structured output visual reasoning schema compliance evaluation benchmark

SO-Bench：多模态大语言模型的结构化输出评估 / SO-Bench: A Structural Output Evaluation of Multimodal LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为SO-Bench的新基准，专门用于评估多模态大语言模型根据视觉信息生成符合预定数据格式（如JSON）的结构化输出的能力，发现现有模型在此方面仍有不足，并通过训练实验展示了改进的可能性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.21395

🤖 系统

11-30 19:25

multi-modal model training llm

visual reasoning latent space reinforcement learning multimodal llms knowledge distillation

📄 论文总结

Monet：超越图像和语言的潜在视觉空间推理 / Monet: Reasoning in Latent Visual Space Beyond Images and Language

1️⃣ 一句话总结

这篇论文提出了一个名为Monet的训练框架，通过让多模态大语言模型直接在潜在视觉空间中生成连续的视觉思维嵌入来进行推理，并针对训练挑战设计了专门的优化方法，显著提升了模型在真实世界感知和抽象视觉推理任务上的性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.07250

🤖 系统

11-30 17:52

multi-modal model evaluation benchmark

multi-video understanding multimodal llms evaluation benchmark video reasoning cross-video analysis

📄 论文总结

MVU-Eval：面向多模态大语言模型的多视频理解评估 / MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs

1️⃣ 一句话总结

这篇论文提出了首个多视频理解评估基准MVU-Eval，通过涵盖近5000个视频的1800多个问题，系统评估多模态大模型在跨视频感知与推理方面的能力，揭示了现有模型在处理多视频任务时的显著不足。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.06805

🤖 系统

11-30 17:52

multi-modal model training model evaluation

mathematical reasoning multimodal llms iterative refinement reward modeling self-evolving learning

📄 论文总结

MathSE：通过自演进迭代反思与奖励引导微调提升多模态数学推理能力 / MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning

1️⃣ 一句话总结

这篇论文提出了一个名为MathSE的自演进框架，通过推理、反思和奖励反馈的循环迭代，显著提升了多模态大语言模型在复杂数学问题上的解决能力。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.06281

🤖 系统

11-30 17:51

reinforcement learning multi-modal model training

self-supervised learning video understanding multimodal llms pretext tasks benchmark evaluation

📄 论文总结

VideoSSR：视频自监督强化学习 / VideoSSR: Video Self-Supervised Reinforcement Learning

1️⃣ 一句话总结

本研究提出了一种名为VideoSSR的视频自监督强化学习框架，通过设计三种无需人工标注的自监督任务来生成高质量训练数据，有效提升了多模态大语言模型在多种视频理解任务上的性能，平均提升超过5%。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.02415

🤖 系统

11-30 17:49

multi-modal model training data

chart comprehension visual reasoning dataset generation multimodal llms code-driven pipeline

📄 论文总结

ChartM³：用于图表理解中多维多步视觉推理数据构建的多阶段代码驱动流程 / ChartM$^3$: A Multi-Stage Code-Driven Pipeline for Constructing Multi-Dimensional and Multi-Step Visual Reasoning Data in Chart Comprehension

1️⃣ 一句话总结

本研究开发了一个自动化代码驱动流程，用于生成多样化的图表视觉推理数据集，有效提升了小型模型在复杂图表理解和跨领域泛化任务上的性能，使其能够媲美更大规模的模型。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2511.20494

1️⃣ 一句话总结

2512.03746

1️⃣ 一句话总结

2512.01949

1️⃣ 一句话总结

2511.22805

1️⃣ 一句话总结

2511.21750

1️⃣ 一句话总结

2511.21395

📄 论文总结

1️⃣ 一句话总结

2511.07250

📄 论文总结

1️⃣ 一句话总结

2511.06805

📄 论文总结

1️⃣ 一句话总结

2511.06281

📄 论文总结

1️⃣ 一句话总结

2511.02415

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2511.20494 📝

1️⃣ 一句话总结

2512.03746 📝

1️⃣ 一句话总结

2512.01949 📝

1️⃣ 一句话总结

2511.22805 📝

1️⃣ 一句话总结

2511.21750 📝

1️⃣ 一句话总结

2511.21395 📝

📄 论文总结

1️⃣ 一句话总结

2511.07250 📝

📄 论文总结

1️⃣ 一句话总结

2511.06805 📝

📄 论文总结

1️⃣ 一句话总结

2511.06281 📝

📄 论文总结

1️⃣ 一句话总结

2511.02415 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2511.20494

2512.03746

2512.01949

2511.22805

2511.21750

2511.21395

2511.07250

2511.06805

2511.06281

2511.02415