AutoNeural:为NPU推理协同设计的视觉-语言模型 / AutoNeural: Co-Designing Vision-Language Models for NPU Inference
1️⃣ 一句话总结
这篇论文提出了一种名为AutoNeural的新型视觉-语言模型架构,它通过专门为神经处理单元(NPU)的硬件特性进行协同设计,解决了现有模型在NPU上运行效率低下的问题,从而在边缘设备上实现了更快、更稳定的多模态人工智能推理。
请先 登录 后再提交论文
AutoNeural:为NPU推理协同设计的视觉-语言模型 / AutoNeural: Co-Designing Vision-Language Models for NPU Inference
这篇论文提出了一种名为AutoNeural的新型视觉-语言模型架构,它通过专门为神经处理单元(NPU)的硬件特性进行协同设计,解决了现有模型在NPU上运行效率低下的问题,从而在边缘设备上实现了更快、更稳定的多模态人工智能推理。
AdaptVision:通过自适应视觉采集实现高效视觉语言模型 / AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition
这篇论文提出了一种名为AdaptVision的高效视觉语言模型新方法,它模仿人类主动视觉机制,能根据任务需求自适应地决定需要处理多少图像信息,从而在保证回答准确性的同时大幅减少计算开销。
AlignBench:利用合成图像-描述对评估细粒度图文对齐的基准 / AlignBench: Benchmarking Fine-Grained Image-Text Alignment with Synthetic Image-Caption Pairs
这篇论文提出了一个名为AlignBench的新基准测试,它通过评估由多种模型生成的详细图文对来更精细地衡量图像与文本的对齐程度,并发现当前主流模型在细粒度对齐上存在明显缺陷。
像苏格拉底一样提问:苏格拉底助手帮助视觉语言模型理解遥感图像 / Asking like Socrates: Socrates helps VLMs understand remote sensing images
这篇论文针对视觉语言模型在分析遥感图像时存在的‘伪推理’问题,提出了一种名为RS-EoT的新方法,它通过模拟苏格拉底式的多轮问答和自我检查,引导模型逐步寻找视觉证据,从而实现了更准确、基于真实图像内容的推理。
利用视觉语言模型从业务流程图中进行结构化信息提取 / Structured Extraction from Business Process Diagrams Using Vision-Language Models
这篇论文提出了一种新方法,利用视觉语言模型直接从业务流程图的图片中自动提取出结构化的信息,即使没有原始的源文件也能准确识别图中的各种元素和文字。
重新审视视觉推理泛化中冗长思维链的必要性 / Revisiting the Necessity of Lengthy Chain-of-Thought in Vision-centric Reasoning Generalization
这项研究发现,在训练视觉语言模型进行视觉推理时,使用简短且仅包含关键定位步骤的思维链数据,比使用冗长或包含图像操作的复杂思维链,能带来更好的泛化能力和最终性能。
TRivia:用于表格识别的视觉语言模型自监督微调方法 / TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition
这篇论文提出了一种名为TRivia的自监督微调方法,让视觉语言模型无需人工标注数据,就能直接从大量无标签表格图片中学习识别和结构化表格,并基于此训练出了一个性能超越现有先进系统的开源模型TRivia-3B。
一帧中的世界:理解文化混合作为视觉语言模型的新挑战 / World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models
这篇论文指出,当来自不同文化的元素(如食物和背景)同时出现在一个画面中时,现有的大型视觉语言模型难以准确识别并保持它们各自的文化身份,为此作者创建了一个名为CultureMix的评测基准,并发现通过使用包含文化混合数据的监督微调可以有效提升模型在此类场景下的表现。
ENACT:通过第一人称交互的世界建模评估具身认知 / ENACT: Evaluating Embodied Cognition with World Modeling of Egocentric Interaction
这篇论文提出了一个名为ENACT的评估基准,通过视觉问答形式测试人工智能模型是否具备类似人类的具身认知能力,即通过身体与环境的交互来理解和预测世界变化,实验发现当前先进模型与人类表现存在明显差距。
多面攻击:揭示配备防御机制的视觉语言模型中的跨模型漏洞 / Multi-Faceted Attack: Exposing Cross-Model Vulnerabilities in Defense-Equipped Vision-Language Models
这篇论文提出了一种名为多面攻击的新方法,能够有效绕过当前主流视觉语言模型的多重安全防护,揭示了这些模型因共享视觉表示而存在的普遍安全漏洞,攻击成功率远超现有方法。