arXiv ID:
2602.08363
量子美学路线图 / Roadmap to Quantum Aesthetics
1️⃣ 一句话总结
这篇论文提出了一个研究量子美学的路线图,通过两种互补方法——利用生成式AI探索文化想象中的量子概念,以及直接可视化量子力学数据来创造艺术形式——来探索艺术如何作为媒介,将抽象的量子科学转化为可感知的美学现象。
量子美学路线图 / Roadmap to Quantum Aesthetics
这篇论文提出了一个研究量子美学的路线图,通过两种互补方法——利用生成式AI探索文化想象中的量子概念,以及直接可视化量子力学数据来创造艺术形式——来探索艺术如何作为媒介,将抽象的量子科学转化为可感知的美学现象。
多模态大语言模型真的“看见”了吗?——强化其视觉注意力机制 / Do MLLMs Really See It: Reinforcing Visual Attention in Multimodal LLMs
这篇论文发现当前的多模态大模型在推理时视觉注意力不集中且难以自我修正,导致错误累积,为此提出了一种名为SAYO的新模型,它通过强化学习奖励机制来引导模型更可靠地关注图像关键区域,从而在多种视觉推理任务上取得了更好的表现。
Demo-ICL:基于演示的上下文学习用于过程性视频知识获取 / Demo-ICL: In-Context Learning for Procedural Video Knowledge Acquisition
这篇论文提出了一个名为Demo-ICL的新任务和对应评测基准,旨在让多模态大语言模型能够通过观看少量教学视频演示来快速学习新技能并回答相关问题,同时开发了一个两阶段训练的新模型来有效解决这一挑战。
从障碍到礼仪:基于视觉语言模型路径选择的机器人社会导航 / From Obstacles to Etiquette: Robot Social Navigation with VLM-Informed Path Selection
这篇论文提出了一种让机器人在人群中移动时更懂‘礼貌’的新方法,它先用传统技术规划几条可行的物理路线,然后借助一个经过专门训练的视觉语言模型,像人一样‘思考’哪条路线最符合社交礼仪,从而选出既安全又不打扰他人的最优路径。
OSCAR:用于组合图像检索的优化引导智能体规划框架 / OSCAR: Optimization-Steered Agentic Planning for Composed Image Retrieval
这篇论文提出了一个名为OSCAR的新框架,它将组合图像检索任务从一个依赖试错的启发式搜索过程,转变为一个有理论依据的轨迹优化问题,通过离线计算最优检索路径并在线引导模型,从而用更少的数据实现了更准确、泛化能力更强的检索效果。
UrbanGraphEmbeddings:面向城市科学的学习与评估空间基础多模态嵌入 / UrbanGraphEmbeddings: Learning and Evaluating Spatially Grounded Multimodal Embeddings for Urban Science
这篇论文提出了一个结合街景图像与城市空间结构图的数据集和训练方法,让AI模型能更好地理解城市环境中的空间关系(如距离、方向、连接性),从而在图像检索、地理位置推断等城市任务上取得显著性能提升。
理解与优化基于注意力的稀疏匹配方法以适配多样化局部特征 / Understanding and Optimizing Attention-Based Sparse Matching for Diverse Local Features
这篇论文通过分析发现,在基于注意力机制的图像匹配模型中,特征检测器(而非描述符)是性能差异的关键,并提出了一种利用多种检测器关键点进行微调的新方法,从而创建了一个通用的、不依赖特定检测器的匹配模型,使其在零样本情况下对新检测器的匹配精度达到或超过专门训练的模型。
WristMIR:基于放射学报告驱动学习、从粗到细的区域感知儿科腕部X光片检索 / WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning
这篇论文提出了一个名为WristMIR的智能系统,它能自动分析儿科腕部X光片和对应的放射科医生报告,先快速筛选出可能相似的病例,再针对特定骨骼区域进行精细比对,从而更准确地帮助医生找到具有相似骨折特征的参考影像,辅助诊断。
SPD-Faith Bench:诊断与提升多模态大语言模型思维链推理的忠实性 / SPD-Faith Bench: Diagnosing and Improving Faithfulness in Chain-of-Thought for Multimodal Large Language Models
这篇论文提出了一个名为SPD-Faith Bench的诊断基准,用于发现多模态大模型在思维链推理中存在的‘感知盲区’和‘感知-推理脱节’两大不忠实问题,并通过一种无需训练的可视化证据校准框架SAGE来提升推理的可靠性。
MCIE:基于多模态大语言模型、具备空间引导能力的复杂指令图像编辑方法 / MCIE: Multimodal LLM-Driven Complex Instruction Image Editing with Spatial Guidance
这篇论文提出了一种名为MCIE-E1的新方法,它利用多模态大语言模型来理解和执行复杂的图像编辑指令,通过两个关键模块确保编辑结果既准确遵循指令,又能保持图像背景的连贯性,并在新建立的评测标准上大幅超越了现有技术。
请先 登录 后再提交论文