arXiv ID:
2601.03509
演化式程序化技能网络 / Evolving Programmatic Skill Networks
1️⃣ 一句话总结
这篇论文提出了一种名为‘程序化技能网络’的新框架,让智能体能够像搭积木一样,通过可执行的符号程序来不断学习、优化和组合新技能,并在开放环境中展现出强大的适应和泛化能力。
演化式程序化技能网络 / Evolving Programmatic Skill Networks
这篇论文提出了一种名为‘程序化技能网络’的新框架,让智能体能够像搭积木一样,通过可执行的符号程序来不断学习、优化和组合新技能,并在开放环境中展现出强大的适应和泛化能力。
作为软件工程智能体上下文验证器的“能动性评估准则” / Agentic Rubrics as Contextual Verifiers for SWE Agents
这篇论文提出了一种名为‘能动性评估准则’的新方法,它让一个专家智能体通过分析代码库来生成一份具体的检查清单,然后无需运行测试就能直接评估代码补丁的质量,从而为软件工程智能体提供了一种更高效、可扩展且易于理解的验证信号。
通过交互学习用户偏好以实现长期协作 / Learning User Preferences Through Interaction for Long-Term Collaboration
这篇论文提出了一个名为MultiSessionCollab的评估基准和一种带有记忆模块的智能体,通过在多轮对话中持续学习和优化用户偏好,显著提升了长期协作的任务成功率、交互效率和用户体验。
MAGMA:一种面向AI智能体的多图驱动记忆架构 / MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents
这篇论文提出了一种名为MAGMA的新型记忆架构,它通过将记忆内容分别存入语义、时间、因果和实体四种独立的关系图中,并让AI智能体像导航一样根据查询需求在这些图中灵活检索,从而显著提升了AI在复杂长程推理任务中的准确性和可解释性。
为何大语言模型尚非科学家:来自四次自主研究尝试的启示 / Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts
这篇论文通过四次让大语言模型自主生成机器学习研究论文的尝试,发现其中三次失败,揭示了AI在自主科研中存在的六大常见缺陷,并提出了构建更可靠AI科学家系统的设计原则。
统一思考者:用于图像生成的通用推理模块化核心 / Unified Thinker: A General Reasoning Modular Core for Image Generation
这篇论文提出了一个名为‘统一思考者’的模块化推理核心,它通过将复杂的图像生成指令分解为可执行的、可验证的计划,并独立于图像生成器进行训练,从而显著提升了图像生成模型在逻辑推理和指令遵循方面的能力。
MiMo-V2-Flash 技术报告 / MiMo-V2-Flash Technical Report
这篇论文介绍了一个名为MiMo-V2-Flash的高效大型语言模型,它通过创新的专家混合结构和训练方法,在参数更少的情况下实现了与顶尖开源模型相媲美的推理和智能体能力,并且推理速度更快。
MDAgent2:用于分子动力学代码生成与知识问答的大语言模型 / MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics
这篇论文提出了一个名为MDAgent2的端到端框架,它通过构建高质量数据集和创新的训练方法,训练出专门用于分子动力学领域的大语言模型,不仅能回答专业问题,还能自动生成可执行的模拟代码,从而显著降低了进行复杂科学仿真的技术门槛。
大语言模型在多轮对话中的置信度估计 / Confidence Estimation for LLMs in Multi-turn Interactions
这篇论文首次系统性地研究了大语言模型在多轮对话中的置信度估计问题,发现现有方法效果不佳,并提出了一种新的评估框架和一个表现相对更好的探测方法,为构建更可靠的对话智能体奠定了基础。
SimpleMem:面向大语言模型智能体的高效终身记忆框架 / SimpleMem: Efficient Lifelong Memory for LLM Agents
这篇论文提出了一个名为SimpleMem的高效记忆框架,它通过语义无损压缩技术,将智能体过去的交互经验提炼成紧凑且结构化的记忆单元,从而在显著降低计算成本的同时,大幅提升了智能体在长期任务中的准确性和效率。
请先 登录 后再提交论文