🤖 系统
12-04 14:34
用编程视觉思考:迈向图像思维的统一视图 / Thinking with Programming Vision: Towards a Unified View for Thinking with Images
1️⃣ 一句话总结
这篇论文发现当前多模态大模型处理图像时非常脆弱,容易受方向变化等简单干扰影响,为此提出了一个名为CodeVision的新框架,让模型通过生成代码来灵活调用各种图像处理工具,并通过两阶段训练方法显著提升了模型的鲁棒性、工具组合能力和错误恢复能力。