arXiv ID:
2512.15431
Step-GUI技术报告 / Step-GUI Technical Report
1️⃣ 一句话总结
这篇论文提出了一套低成本、高准确率的自进化训练方法来开发图形界面智能助手,并设计了新的标准化接口和真实场景测试基准,让AI能更安全、高效地帮我们操作手机和电脑上的各种应用。
Step-GUI技术报告 / Step-GUI Technical Report
这篇论文提出了一套低成本、高准确率的自进化训练方法来开发图形界面智能助手,并设计了新的标准化接口和真实场景测试基准,让AI能更安全、高效地帮我们操作手机和电脑上的各种应用。
SCOPE:通过提示进化增强智能体效能 / SCOPE: Prompt Evolution for Enhancing Agent Effectiveness
这篇论文提出了一个名为SCOPE的系统,它能让大语言模型智能体像自己学习一样,通过分析执行记录自动优化和更新其工作指令,从而在处理海量动态信息时显著提升任务成功率。
共享程序状态:一种提升自然语言与形式化代码互操作性的编程抽象 / Sharing State Between Prompts and Programs
本文提出了一种名为“共享程序状态”的新型编程抽象,允许自然语言代码直接读写宿主程序(如Python)的变量、操作对象并控制程序流程,消除了传统方法中手动序列化数据和连接代码的负担,并通过在NIGHTJAR系统中的实现与评估,证明了其在减少代码量和提升任务准确率方面的有效性。
RecGPT-V2:一种高效、可扩展且与人类对齐的意图驱动推荐系统 / RecGPT-V2 Technical Report
RecGPT-V2是一个新一代的意图驱动推荐系统框架,它通过分层多智能体系统、原子化实体压缩、元提示、约束强化学习和过程导向的智能体即法官评估等四项核心创新,系统地解决了其前身RecGPT-V1在计算效率、解释多样性、泛化能力和评估对齐方面的局限性,并在在线A/B测试中取得了显著性能提升。
A4-Agent:一种用于零样本可供性推理的智能体框架 / A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning
这篇论文提出了一个名为A4-Agent的零样本智能体框架,它通过协调三个预训练基础模型(分别负责想象交互过程、推理交互对象部件和精确定位交互区域),无需额外训练就能在多种物体和环境上实现比有监督方法更好的交互区域预测,解决了现有模型泛化能力差的问题。
EVOLVE-VLA:基于环境反馈的视觉-语言-动作模型测试时训练框架 / EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models
这篇论文提出了一个名为EVOLVE-VLA的新框架,让机器人视觉-语言-动作模型能在实际测试环境中通过与环境的互动来自主学习和改进,从而显著减少对大量人工演示数据的依赖,并提升其在陌生任务和复杂长序列任务中的适应能力。
MobileWorldBench:面向移动智能体的语义世界建模 / MobileWorldBench: Towards Semantic World Modeling For Mobile Agents
这篇论文提出了一个名为MobileWorldBench的新基准和一个大规模数据集MobileWorld,旨在通过自然语言而非像素预测来构建图形用户界面智能体的语义世界模型,并展示了该模型能有效提升移动智能体执行任务的成功率。
GTR-Turbo:合并的检查点悄然成为智能视觉语言模型训练的免费导师 / GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
这篇论文提出了一种名为GTR-Turbo的高效训练方法,它通过合并训练过程中产生的模型检查点来创建一个‘免费’的指导模型,从而在无需依赖昂贵外部模型的情况下,显著提升了视觉智能体的性能,并大幅降低了训练时间和计算成本。
Nemotron-Cascade:为通用推理模型扩展级联强化学习 / Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models
这篇论文提出了一种名为“级联强化学习”的新方法,通过分领域、分阶段地训练AI模型,有效解决了通用推理模型在训练中面临的复杂性和效率问题,最终训练出的模型在多项编程和推理基准测试中超越了现有先进模型。
可微分进化强化学习 / Differentiable Evolutionary Reinforcement Learning
这篇论文提出了一种名为DERL的新方法,它能够像训练智能体一样,自动学习和优化奖励函数本身,从而让AI在复杂的推理任务中更高效地学会如何给自己设定更好的目标。
请先 登录 后再提交论文