arXiv ID:
2512.16918
arXiv 提交日期: 2025-12-18
AdaTooler-V:面向图像与视频的自适应工具使用模型 / AdaTooler-V: Adaptive Tool-Use for Images and Videos
1️⃣ 一句话总结
这篇论文提出了一个名为AdaTooler-V的多模态大模型,它通过智能判断何时需要调用视觉工具来解决问题,从而在减少不必要计算开销的同时,显著提升了在图像和视频任务上的推理准确率,其性能甚至超过了GPT-4o等顶尖商业模型。