arXiv最新AI论文速览速学

🔍

agents ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 38 72小时内新更新论文 72h更新 127 最新: Dynamic UGV-UAV Cooperative Path Planning in Uncertain Environments 05-03

arXiv ID: 2512.15431

arXiv 提交日期: 2025-12-17

agents multi-modal model training gui automation multimodal llm self-evolving training benchmark privacy-preserving

Step-GUI技术报告 / Step-GUI Technical Report

1️⃣ 一句话总结

这篇论文提出了一套低成本、高准确率的自进化训练方法来开发图形界面智能助手，并设计了新的标准化接口和真实场景测试基准，让AI能更安全、高效地帮我们操作手机和电脑上的各种应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.15374

arXiv 提交日期: 2025-12-17

llm agents model training prompt evolution context optimization agent effectiveness online optimization self-evolving systems

SCOPE：通过提示进化增强智能体效能 / SCOPE: Prompt Evolution for Enhancing Agent Effectiveness

1️⃣ 一句话总结

这篇论文提出了一个名为SCOPE的系统，它能让大语言模型智能体像自己学习一样，通过分析执行记录自动优化和更新其工作指令，从而在处理海量动态信息时显著提升任务成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14805

arXiv 提交日期: 2025-12-16

llm systems agents programming abstraction natural language programming human-ai collaboration llm integration code generation

共享程序状态：一种提升自然语言与形式化代码互操作性的编程抽象 / Sharing State Between Prompts and Programs

1️⃣ 一句话总结

本文提出了一种名为“共享程序状态”的新型编程抽象，允许自然语言代码直接读写宿主程序（如Python）的变量、操作对象并控制程序流程，消除了传统方法中手动序列化数据和连接代码的负担，并通过在NIGHTJAR系统中的实现与评估，证明了其在减少代码量和提升任务准确率方面的有效性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14503

arXiv 提交日期: 2025-12-16

llm agents systems recommendation system multi-agent architecture efficient inference reinforcement learning explainable ai

RecGPT-V2：一种高效、可扩展且与人类对齐的意图驱动推荐系统 / RecGPT-V2 Technical Report

1️⃣ 一句话总结

RecGPT-V2是一个新一代的意图驱动推荐系统框架，它通过分层多智能体系统、原子化实体压缩、元提示、约束强化学习和过程导向的智能体即法官评估等四项核心创新，系统地解决了其前身RecGPT-V1在计算效率、解释多样性、泛化能力和评估对齐方面的局限性，并在在线A/B测试中取得了显著性能提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14442

arXiv 提交日期: 2025-12-16

agents computer vision multi-modal affordance reasoning zero-shot vision-language models embodied ai agentic framework

A4-Agent：一种用于零样本可供性推理的智能体框架 / A4-Agent: An Agentic Framework for Zero-Shot Affordance Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为A4-Agent的零样本智能体框架，它通过协调三个预训练基础模型（分别负责想象交互过程、推理交互对象部件和精确定位交互区域），无需额外训练就能在多种物体和环境上实现比有监督方法更好的交互区域预测，解决了现有模型泛化能力差的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14666

arXiv 提交日期: 2025-12-16

robotics agents model training vision-language-action test-time training embodied ai adaptive learning environment feedback

EVOLVE-VLA：基于环境反馈的视觉-语言-动作模型测试时训练框架 / EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models

1️⃣ 一句话总结

这篇论文提出了一个名为EVOLVE-VLA的新框架，让机器人视觉-语言-动作模型能在实际测试环境中通过与环境的互动来自主学习和改进，从而显著减少对大量人工演示数据的依赖，并提升其在陌生任务和复杂长序列任务中的适应能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.14014

arXiv 提交日期: 2025-12-16

agents multi-modal benchmark world modeling gui agents vision-language models mobile agents semantic state transitions

MobileWorldBench：面向移动智能体的语义世界建模 / MobileWorldBench: Towards Semantic World Modeling For Mobile Agents

1️⃣ 一句话总结

这篇论文提出了一个名为MobileWorldBench的新基准和一个大规模数据集MobileWorld，旨在通过自然语言而非像素预测来构建图形用户界面智能体的语义世界模型，并展示了该模型能有效提升移动智能体执行任务的成功率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13043

arXiv 提交日期: 2025-12-15

agents model training multi-modal vision-language models reinforcement learning knowledge distillation checkpoint merging agent training

GTR-Turbo：合并的检查点悄然成为智能视觉语言模型训练的免费导师 / GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

1️⃣ 一句话总结

这篇论文提出了一种名为GTR-Turbo的高效训练方法，它通过合并训练过程中产生的模型检查点来创建一个‘免费’的指导模型，从而在无需依赖昂贵外部模型的情况下，显著提升了视觉智能体的性能，并大幅降低了训练时间和计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13607

arXiv 提交日期: 2025-12-15

llm model training agents reinforcement learning reasoning models cascaded rl alignment benchmark evaluation

Nemotron-Cascade：为通用推理模型扩展级联强化学习 / Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models

1️⃣ 一句话总结

这篇论文提出了一种名为“级联强化学习”的新方法，通过分领域、分阶段地训练AI模型，有效解决了通用推理模型在训练中面临的复杂性和效率问题，最终训练出的模型在多项编程和推理基准测试中超越了现有先进模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13399

arXiv 提交日期: 2025-12-15

reinforcement learning model training agents reward shaping meta-learning evolutionary algorithms bilevel optimization autonomous agents

可微分进化强化学习 / Differentiable Evolutionary Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一种名为DERL的新方法，它能够像训练智能体一样，自动学习和优化奖励函数本身，从而让AI在复杂的推理任务中更高效地学会如何给自己设定更好的目标。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.15431

1️⃣ 一句话总结

arXiv ID: 2512.15374

1️⃣ 一句话总结

arXiv ID: 2512.14805

1️⃣ 一句话总结

arXiv ID: 2512.14503

1️⃣ 一句话总结

arXiv ID: 2512.14442

1️⃣ 一句话总结

arXiv ID: 2512.14666

1️⃣ 一句话总结

arXiv ID: 2512.14014

1️⃣ 一句话总结

arXiv ID: 2512.13043

1️⃣ 一句话总结

arXiv ID: 2512.13607

1️⃣ 一句话总结

arXiv ID: 2512.13399

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.15431 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.15374 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14805 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14503 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14442 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14666 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.14014 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13043 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13607 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13399 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.15431

arXiv ID: 2512.15374

arXiv ID: 2512.14805

arXiv ID: 2512.14503

arXiv ID: 2512.14442

arXiv ID: 2512.14666

arXiv ID: 2512.14014

arXiv ID: 2512.13043

arXiv ID: 2512.13607

arXiv ID: 2512.13399