arXiv ID:
2511.02687
协作鸿沟 / The Collaboration Gap
1️⃣ 一句话总结
这篇论文通过一个迷宫求解实验发现,即使单个AI模型表现优秀,它们在相互协作时性能也会显著下降,揭示了AI系统间存在的‘协作鸿沟’,并提出了由强模型主导的‘接力推理’方法来改善协作效果。
协作鸿沟 / The Collaboration Gap
这篇论文通过一个迷宫求解实验发现,即使单个AI模型表现优秀,它们在相互协作时性能也会显著下降,揭示了AI系统间存在的‘协作鸿沟’,并提出了由强模型主导的‘接力推理’方法来改善协作效果。
TIR-Bench:面向智能图像推理代理的综合性基准测试 / TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
这篇论文提出了一个名为TIR-Bench的新基准测试,专门用于评估AI模型在复杂图像处理任务中动态使用工具进行推理的能力,填补了现有测试在衡量高级视觉思维方面的不足。
统一扩散VLA:通过联合离散去噪扩散过程的视觉-语言-动作模型 / Unified Diffusion VLA: Vision-Language-Action Model via Joint Discrete Denoising Diffusion Process
这篇论文提出了一种新型的视觉-语言-动作模型,通过一个联合的扩散过程同步生成未来图像和预测机器人动作,实现了多任务协同优化,在多个基准测试中取得了领先性能且推理速度更快。
CodeClash:面向目标的软件工程基准测试 / CodeClash: Benchmarking Goal-Oriented Software Engineering
这篇论文提出了一个名为CodeClash的基准测试平台,通过多轮竞赛评估语言模型在开放目标下自主优化代码的能力,发现当前模型在战略规划和长期代码维护方面存在明显不足,难以与人类程序员匹敌。
GUI-AIMA:通过上下文锚点对齐内在多模态注意力以实现图形用户界面定位 / GUI-AIMA: Aligning Intrinsic Multimodal Attention with a Context Anchor for GUI Grounding
这篇论文提出了一种无需直接生成坐标的高效图形用户界面定位方法,通过巧妙利用多模态大模型的内部注意力机制,仅需少量数据训练即可在多个基准测试中达到领先的准确率。
OpenSIR:开放式自我改进推理器 / OpenSIR: Open-Ended Self-Improving Reasoner
这篇论文提出了一个名为OpenSIR的自我学习框架,让大型语言模型通过扮演老师和学生的角色交替生成和解决新问题,在没有外部监督的情况下实现了从基础到高级数学能力的自主提升。
EBT-策略:能量模型解锁涌现的物理推理能力 / EBT-Policy: Energy Unlocks Emergent Physical Reasoning Capabilities
这篇论文提出了一种名为EBT-Policy的新型能量模型架构,它在机器人任务中比当前主流的扩散策略表现更好、计算效率更高,并且展现出无需额外训练就能从错误中自主恢复等智能行为。
ToolScope:一种用于视觉引导和长视野工具使用的智能体框架 / ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use
这篇论文提出了一个名为ToolScope的智能框架,它通过结合全局规划和局部视觉感知,有效提升了多模态大模型在复杂视觉问答任务中使用外部工具的能力,并在多个基准测试中显著提高了性能。
代理组织时代:利用语言模型进行组织学习 / The Era of Agentic Organization: Learning to Organize with Language Models
这篇论文提出了一种名为异步思维的新方法,让多个AI代理通过动态分工和协作来解决复杂问题,不仅推理速度更快,还能在数学推理等任务上取得更好效果,并且学到的协作能力可以直接应用到新任务中。
将测试时计算最优缩放推广为可优化图 / Generalizing Test-time Compute-optimal Scaling as an Optimizable Graph
这篇论文提出了一种新方法,将多个大语言模型在推理时的协作形式化为一个可优化的图结构,并通过智能代理框架自动搜索在固定计算预算下最适合特定任务的高效协作方案,从而在准确性和速度之间取得更好平衡。
请先 登录 后再提交论文