像苏格拉底一样提问:苏格拉底助手帮助视觉语言模型理解遥感图像 / Asking like Socrates: Socrates helps VLMs understand remote sensing images
1️⃣ 一句话总结
这篇论文针对视觉语言模型在分析遥感图像时存在的‘伪推理’问题,提出了一种名为RS-EoT的新方法,它通过模拟苏格拉底式的多轮问答和自我检查,引导模型逐步寻找视觉证据,从而实现了更准确、基于真实图像内容的推理。
请先 登录 后再提交论文
像苏格拉底一样提问:苏格拉底助手帮助视觉语言模型理解遥感图像 / Asking like Socrates: Socrates helps VLMs understand remote sensing images
这篇论文针对视觉语言模型在分析遥感图像时存在的‘伪推理’问题,提出了一种名为RS-EoT的新方法,它通过模拟苏格拉底式的多轮问答和自我检查,引导模型逐步寻找视觉证据,从而实现了更准确、基于真实图像内容的推理。
StreamGaze:流媒体视频中的视线引导时序推理与前瞻性理解 / StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos
这篇论文提出了首个名为StreamGaze的基准测试,用于评估多模态大模型如何利用实时视线信号来理解动态视频内容、推断用户意图并进行前瞻性预测,结果发现现有模型在这些方面与人类能力存在显著差距。
文化褪色之处:揭示文本到图像生成中的文化鸿沟 / Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation
这篇论文发现,当前的多语言文本生成图像模型在处理不同语言提示时,常常产生文化中立或偏向英语文化的结果,其根源在于模型内部文化相关表征未被充分激活,而非缺乏文化知识;为此,作者提出了一种定位文化敏感神经元的方法,并设计了两种无需全面微调模型的策略来增强生成图像的文化一致性。
MultiBanana:一个用于多参考文本到图像生成的挑战性基准 / MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation
这篇论文提出了一个名为MultiBanana的新基准,它系统地评估了AI模型根据多张参考图片生成新图像的能力,并揭示了现有模型在应对参考图片数量、风格、尺度等复杂差异时的优势和不足。
使用VideoScience-Bench对视频生成模型的科学理解与推理能力进行基准测试 / Benchmarking Scientific Understanding and Reasoning for Video Generation using VideoScience-Bench
这篇论文提出了首个专门用于评估视频生成模型是否具备本科水平的科学理解与推理能力的基准测试VideoScience-Bench,它通过涵盖物理和化学的200个复杂科学场景提示,来检验模型生成内容是否符合真实世界的科学规律。
SCALE:通过选择性资源分配克服数学测试时扩展中的性能瓶颈 / SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling
这篇论文提出了一种名为SCALE的新方法,它像一位聪明的项目经理,在大型语言模型解决数学问题时,能自动识别并集中计算资源去攻克难题,而不是平均分配,从而在显著提升解题准确率的同时,大幅降低了计算成本。
UnicEdit-10M:通过统一验证打破规模与质量壁垒,赋能推理增强编辑的数据集与基准 / UnicEdit-10M: A Dataset and Benchmark Breaking the Scale-Quality Barrier via Unified Verification for Reasoning-Enriched Edits
这篇论文提出了一个名为UnicEdit-10M的大规模高质量图像编辑数据集,以及一个能精细评估模型在空间和知识推理方面能力的综合基准UnicBench,旨在解决开源模型因缺乏优质数据而落后于闭源模型的问题。
WorldMM:用于长视频推理的动态多模态记忆代理 / WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning
这篇论文提出了一个名为WorldMM的新型智能系统,它通过构建并灵活调用包含文字、视觉和概念在内的多种记忆,有效解决了现有视频AI模型难以理解和回答长达数小时视频内容的问题,在多个测试中表现显著优于之前最好的方法。
CaptionQA:你的图像描述是否和图像本身一样有用? / CaptionQA: Is Your Caption as Useful as the Image Itself?
本文提出了一个名为CaptionQA的新基准,通过量化图像描述(caption)在多大程度上能替代原始图像以支持下游任务(如检索、推荐、具身AI等),来评估描述的质量,揭示了当前最先进模型生成的描述在实用性上与原始图像存在显著差距。
查找泄露,修复分割:基于聚类的防止视频衍生数据集信息泄露的方法 / Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets
这篇论文提出了一种基于聚类的帧选择策略,通过在划分训练集、验证集和测试集之前,先将视觉上相似的视频帧分组,从而有效防止数据集信息泄露,确保划分出的各部分更具代表性、更平衡、更可靠。