arXiv ID:
2603.14882
arXiv 提交日期: 2026-03-16
LLMind:面向视觉语言模型的仿生免训练自适应视觉表征方法 / LLMind: Bio-inspired Training-free Adaptive Visual Representations for Vision-Language Models
1️⃣ 一句话总结
这篇论文提出了一种名为LLMind的仿生免训练框架,它模仿人眼视觉的注视点编码和皮层放大机制,让视觉语言模型能用极少的像素高效地聚焦于图像的关键信息区域,从而在多种视觉问答任务上大幅提升性能并节省计算资源。