arXiv ID:
2601.21342
arXiv 提交日期: 2026-01-29
Ostrakon-VL:面向餐饮与零售商店的领域专家多模态大语言模型 / Ostrakon-VL: Towards Domain-Expert MLLM for Food-Service and Retail Stores
1️⃣ 一句话总结
这篇论文提出了一个专门为餐饮和零售商店场景设计的智能视觉语言模型Ostrakon-VL,通过创新的数据清洗方法和首个行业公开测试基准,在保持较小模型规模的同时,实现了超越更大模型的性能,能更可靠地理解和处理商店环境中的复杂视觉信息。