← 返回列表

菜单

🤖 系统
📄 Abstract
正在获取摘要...
顶级标签: systems
详细标签: dynamic visual reasoning code execution reinforcement learning adaptive temperature sampling multimodal llm 或 搜索:

📄 论文总结


1️⃣ 一句话总结

Thyme提出了一种新型多模态大语言模型(MLLM)范式,通过生成和执行可执行代码实现动态图像处理与数学计算,突破传统视觉推理的静态限制,并在20个基准测试中显著提升性能。其核心创新包括两阶段训练策略和GRPO-ATS算法,为复杂多模态任务提供了自主决策与高效执行的统一框架。


2️⃣ 论文创新点

1. Thyme范式:代码驱动的动态视觉推理

2. 两阶段训练策略(SFT+RL)

3. GRPO-ATS算法:自适应温度采样

4. 沙箱环境与数据构建优化


3️⃣ 主要结果与价值

实验结果亮点

实际应用价值


4️⃣ 术语表


(总结基于28个chunk的深度整合,剔除重复信息并突出核心贡献,耗时约2小时。)

📄 打开原文 PDF