arXiv最新AI论文速览速学

🔍

标签: #modality gap ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Closing the Modality Gap in Zero-Shot HAR: Contrastive Training and Separability-Optimized Prototypes on IMU Data 06-10

arXiv ID: 2606.10789

arXiv 提交日期: 2026-06-09

machine learning human activity recognition sensor zero-shot learning imu data modality gap contrastive training prototype optimization

零样本人体活动识别中的模态差距弥合：基于IMU数据的对比训练与可分性优化原型 / Closing the Modality Gap in Zero-Shot HAR: Contrastive Training and Separability-Optimized Prototypes on IMU Data

1️⃣ 一句话总结

该论文提出通过对比训练和精心设计的语义描述原型，有效缩小了IMU传感器数据与文本语义之间的模态差距，从而显著提升了零样本人体活动识别的性能，并强调了宏平均F1分数是比准确率更可靠的评估指标。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2606.06076

arXiv 提交日期: 2026-06-04

computer vision agents model training visual planning self-distillation modality gap spatial reasoning state recovery

基于模态差距感知自蒸馏的符号状态视觉空间规划学习 / Learning Visual Spatial Planning from Symbolic State via Modality-Gap-Aware Self-Distillation

1️⃣ 一句话总结

这篇论文提出了一种名为MGSD的两阶段自蒸馏方法，通过先让视觉模型学习准确的物体状态表示，再让符号规划专家用“教师-学生”模式指导视觉模型进行多步推理，从而在不依赖符号输入的情况下，显著提升了视觉空间规划任务的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.17246

arXiv 提交日期: 2026-03-18

medical multi-modal model evaluation vision-language models modality gap medical imaging representation learning embedding analysis

论医学视觉-语言嵌入中的锥体效应与模态鸿沟 / On the Cone Effect and Modality Gap in Medical Vision-Language Embeddings

1️⃣ 一句话总结

这篇论文研究发现，在医学视觉-语言模型中，图像和文本特征之间的差异（模态鸿沟）并非越小越好，通过一个简单方法调节这个差异的大小，可以找到最适合具体医学任务的最佳状态，从而提升模型性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09095

arXiv 提交日期: 2026-03-10

multi-modal llm model evaluation modality gap visual text understanding self-distillation benchmark error analysis

阅读而非思考：理解并弥合多模态大语言模型中文本图像化时的模态鸿沟 / Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

1️⃣ 一句话总结

这篇论文发现，当文本以图像形式输入时，多模态大语言模型会因字体、分辨率等视觉因素导致“阅读”能力下降，尤其是在数学任务上，而通过一种自蒸馏训练方法，可以让模型基于图像输入恢复出接近纯文本模式的推理能力，从而显著提升性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.01502

arXiv 提交日期: 2026-03-02

llm natural language processing audio modality gap speech representation cross-layer analysis speech-language models representation alignment

模态鸿沟的解剖：剖析端到端语音大语言模型的内部状态 / Anatomy of the Modality Gap: Dissecting the Internal States of End-to-End Speech LLMs

1️⃣ 一句话总结

这篇论文研究发现，语音大模型性能不如纯文本模型的关键原因，并非简单的特征分布差异，而在于模型难以将语音信号中冗余、分散的语义信息高效地压缩成稳定的高层决策。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.04802

arXiv 提交日期: 2026-02-04

multi-modal model evaluation benchmark vision-language models visualized text modality gap evaluation benchmark text understanding

VISTA-Bench：视觉语言模型真的能像理解纯文本一样好地理解图像中的文本吗？ / VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text?

1️⃣ 一句话总结

这篇论文提出了一个名为VISTA-Bench的新基准测试，发现当前主流视觉语言模型在处理图像中的文本时，性能明显低于处理语义相同的纯文本，揭示了模型在跨模态统一理解上存在显著缺陷。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.08923

arXiv 提交日期: 2025-12-09

multi-modal model evaluation natural language processing cross-modal inconsistency benchmark vision-language models modality gap evaluation

相同内容，不同答案：多模态大语言模型中的跨模态不一致性 / Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs

1️⃣ 一句话总结

这篇论文通过创建新的评测基准，揭示了当前多模态大模型在处理图像、文字等不同形式但语义相同的信息时，会给出不一致的答案，并发现这种不一致性与模型内部视觉和文本表征的差异有关。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.10789

1️⃣ 一句话总结

arXiv ID: 2606.06076

1️⃣ 一句话总结

arXiv ID: 2603.17246

1️⃣ 一句话总结

arXiv ID: 2603.09095

1️⃣ 一句话总结

arXiv ID: 2603.01502

1️⃣ 一句话总结

arXiv ID: 2602.04802

1️⃣ 一句话总结

arXiv ID: 2512.08923

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.10789 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2606.06076 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.17246 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09095 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.01502 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.04802 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.08923 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.10789

arXiv ID: 2606.06076

arXiv ID: 2603.17246

arXiv ID: 2603.09095

arXiv ID: 2603.01502

arXiv ID: 2602.04802

arXiv ID: 2512.08923