DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents

📄 Abstract - DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents

Mobile Phone Agents (MPAs) have emerged as a promising research direction due to their broad applicability across diverse scenarios. While Multimodal Large Language Models (MLLMs) serve as the foundation for MPAs, their effectiveness in handling multiple mobile phone tasks simultaneously remains limited. Although multitask supervised fine-tuning (SFT) is widely adopted for multitask learning, existing approaches struggle to determine optimal training data compositions for peak performance. To address this challenge, we propose DaMo (Data Mixture Optimizer) - a novel solution employing a trainable network that predicts optimal data mixtures by forecasting downstream task performance for any given dataset ratio. To support comprehensive evaluation, we introduce PhoneAgentBench, the first specialized benchmark to evaluate MLLMs on multimodal mobile phone tasks, comprising 1235 QA pairs spanning diverse real-world industrial mobile application scenarios. Demonstrating strong predictive capability (R^2=0.81) in small-scale pilot experiments, DaMo efficiently extrapolates optimal data mixing configurations. Our results show DaMo achieves a 3.38% performance improvement on PhoneAgentBench compared to alternative methods. Furthermore, extensive experiments across established benchmarks including BFCL-v3, MME-Reasoning, MME-Perception, and OCRBench reveal DaMo's superior generalization, outperforming other approaches by 2.57% in terms of average score. When used solely for MLLM optimization on the BFCL-v3 task, DaMo improves the metrics by 12.47% than other methods. Notably, DaMo maintains robust scalability, preserving its effectiveness when applied to other model architectures. The code and dataset are available at this https URL

DaMo：通过下游任务性能预测优化多模态大语言模型的数据混合 / DaMo: Data Mixing Optimizer in Fine-tuning Multimodal LLMs for Mobile Phone Agents

1️⃣ 一句话总结

本文提出了一种名为DaMo的数据混合优化方法，通过一个可训练的神经网络预测不同数据混合比例下的下游任务性能，从而自动寻找最优训练数据配置，并首次构建了用于评估移动手机智能体多模态能力的专用基准PhoneAgentBench。

2️⃣ 论文创新点

1. DaMo（数据混合优化器）

创新点：一种用于多任务监督微调（SFT）的数据混合优化方法。其核心是下游任务性能预测器（DaPP），这是一个可训练的神经网络，能够根据给定的数据混合比例预测模型在下游任务上的性能得分，从而自动搜索最优的数据集混合配置。
区别/改进：改进了现有主要关注预训练阶段验证损失预测的数据混合优化方法，使其能够直接关联并优化最终的下游任务性能指标。
意义：为多模态大语言模型（MLLMs）在多任务学习，特别是移动手机代理（MPAs）场景下的高效微调，提供了一种数据配置自动化优化方案，提升了模型整体性能。

2. PhoneAgentBench基准

创新点：首个专门用于评估多模态大语言模型（MLLMs）在移动手机多模态任务上性能的基准。它包含1,235个问答对，覆盖多样化的真实工业移动应用场景，并系统评估了复杂任务规划、设备原生工具使用、多模态记忆和屏幕上下文理解四个关键能力维度。
区别/改进：填补了移动手机代理（MPAs）领域缺乏专用、全面评估基准的空白，克服了现有基准（如GreenSpot-Pro）仅关注GUI任务、缺乏多模态交互和系统性多维度评估的局限。
意义：为研究和比较不同MLLMs在移动手机任务上的能力提供了标准化的评估工具，推动了该领域的发展，加速了智能体技术的实际落地。

3. 模型无关的线性映射扩展

创新点：为了解决不同模型能力差异导致DaMo预测偏差的问题，作者将DaMo视为一个模型无关的预测器，并为新模型训练少量（20个）校准样本来拟合一个线性层，以补偿模型间的差异，提升预测的准确性和跨模型迁移能力。
区别/改进：通过线性映射 g = f(.) w + b 对原始DaMo预测进行校正，减少了模型间的预测偏差，使预测分数与真实分数的相关性提升至0.9以上。
意义：增强了DaMo的普适性和可迁移性，使其能够更准确地位不同目标模型预测最优数据混合比例，从而提升模型在多任务微调中的性能。

3️⃣ 主要结果与价值

结果亮点

DaMo在PhoneAgentBench基准上比无监督微调模型性能提升超过23%，整体平均分提升13.73%，同时在多个开源通用基准（如BFCL-V3）上也显著优于基线方法，性能从29.32%提升至47.43%。
DaMo的下游任务性能预测器（DaPP）展现出强大的预测能力，预测分数与实际分数的决定系数（R²）达到0.81，证明了其有效性。
DaMo展现出良好的跨模型可迁移性。仅需20个校准样本，其学习到的数据混合策略即可迁移到不同规模的模型（如Qwen2.5VL-3B/7B和InternVL3-14B），预测相关性普遍高于0.75。

实际价值

DaMo方法大幅降低了寻找最优数据混合策略的计算成本，无需对MLLM进行穷举式训练，仅需少量采样和模型预测即可系统性地识别最优数据组合。
PhoneAgentBench为移动手机智能体的研发和迭代优化提供了首个全面、支持多模态交互的评估基准，有助于更真实地衡量智能体在实际应用场景中的能力。
该方法证明了最优数据混合编排能同时提升模型的专业领域能力和通用能力，为多任务学习中的数据资源分配提供了新的高效思路。

4️⃣ 术语表

DaMo：Data Mixture Optimizer，数据混合优化器，一种通过神经网络拟合数据混合与下游任务性能映射关系，以系统化寻找最优训练数据混合比例的方法。
DaPP：Downstream task Performance Predictor，下游任务性能预测器，是DaMo方法的核心组件，一个可训练的神经网络，用于预测给定数据混合比例下的模型下游任务性能。
Pfix：固定的数据混合空间，通过保持数据混合比例在整个训练过程中不变而定义，简化了优化问题的搜索空间，使其变得可处理。
PhoneAgentBench (PAB)：手机代理基准测试，一个专门为评估多模态大语言模型在手机智能体任务上性能而设计的基准测试套件，包含MT-Plan、APP-Rec、MM-RR、ACU、MM-NER、Mobile-FC等多个任务数据集，用于系统性评估规划、工具使用、记忆等多维度能力。
MT-Plan (Multimodal Task Planning)：多模态任务规划，是PhoneAgentBench中的一个数据集，用于评估手机智能体在多模态场景下的复杂任务规划能力。输入为图像和查询，输出为有向无环图（DAG）结构的行动计划。
MLLMs：Multimodal Large Language Models，多模态大语言模型，能够理解和生成文本、图像等多种模态信息的AI模型。
MPAs：Mobile Phone Agents，移动手机代理，指能够在移动手机环境中执行复杂任务的AI智能体。
SFT：Supervised Fine-Tuning，监督微调，一种使用有标签数据对预训练模型进行进一步训练的技术。

← 返回列表

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. DaMo（数据混合优化器）

2. PhoneAgentBench基准

3. 模型无关的线性映射扩展

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

AI 帮我研读全文

1️⃣ 一句话总结

2️⃣ 论文创新点

1. DaMo（数据混合优化器）

2. PhoneAgentBench基准

3. 模型无关的线性映射扩展

3️⃣ 主要结果与价值

结果亮点

实际价值

4️⃣ 术语表

获取最新论文摘要