arXiv ID:
2601.03509
演化式程序化技能网络 / Evolving Programmatic Skill Networks
1️⃣ 一句话总结
这篇论文提出了一种名为‘程序化技能网络’的新框架,让智能体能够像搭积木一样,通过可执行的符号程序来不断学习、优化和组合新技能,并在开放环境中展现出强大的适应和泛化能力。
演化式程序化技能网络 / Evolving Programmatic Skill Networks
这篇论文提出了一种名为‘程序化技能网络’的新框架,让智能体能够像搭积木一样,通过可执行的符号程序来不断学习、优化和组合新技能,并在开放环境中展现出强大的适应和泛化能力。
ROI-推理:通过预计算元认知实现推理的理性优化 / ROI-Reasoning: Rational Optimization for Inference via Pre-Computation Meta-Cognition
这篇论文提出了一种名为ROI-Reasoning的方法,它通过让大语言模型在生成答案前学会预估任务难度和计算成本,并据此在严格的计算资源限制下智能地选择解决或跳过某些问题,从而在数学推理任务中实现了更高效、更理性的计算资源分配。
DiffCoT:大语言模型中的扩散风格思维链推理 / DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs
这篇论文提出了一种名为DiffCoT的新方法,它将思维链推理过程类比为图像去噪,通过迭代修正推理步骤中的错误,从而显著提升了大型语言模型在解决复杂数学问题时的准确性和鲁棒性。
RedBench:一个用于大型语言模型全面红队测试的通用数据集 / RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models
这篇论文提出了一个名为RedBench的通用数据集,它整合了多个现有基准,通过标准化的风险分类和领域覆盖,来系统性地评估和比较大型语言模型在面对恶意或对抗性提示时的安全漏洞,以促进更安全可靠的模型开发。
基准的基准:对大语言模型评测基准的系统性评估 / Benchmark^2: Systematic Evaluation of LLM Benchmarks
这篇论文提出了一个名为Benchmark^2的框架,用于评估现有大语言模型评测基准本身的质量好坏,发现不同基准质量差异很大,并证明用他们的方法筛选题目能大幅减少测试题量而不影响评估效果。
迈向大型语言模型在事实核查中的全面分阶段基准测试 / Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking
这篇论文提出了一个名为FactArena的全自动评估框架,通过模拟完整的事实核查流程(包括声明提取、证据检索和最终判断)来全面测试大型语言模型的真实能力,发现仅测试最终验证环节会掩盖模型的系统性缺陷,从而为开发更可靠的事实核查AI提供了新的评估范式。
一统天下的样本:强化学习规模化中的极致数据效率 / One Sample to Rule Them All: Extreme Data Efficiency in RL Scaling
这篇论文挑战了传统观念,发现只需一个精心设计的数学推理样本进行强化学习,就能显著提升大语言模型在物理、化学、生物等多个领域的综合推理能力,证明了样本质量比数量更重要。
通过交互学习用户偏好以实现长期协作 / Learning User Preferences Through Interaction for Long-Term Collaboration
这篇论文提出了一个名为MultiSessionCollab的评估基准和一种带有记忆模块的智能体,通过在多轮对话中持续学习和优化用户偏好,显著提升了长期协作的任务成功率、交互效率和用户体验。
MAGMA:一种面向AI智能体的多图驱动记忆架构 / MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents
这篇论文提出了一种名为MAGMA的新型记忆架构,它通过将记忆内容分别存入语义、时间、因果和实体四种独立的关系图中,并让AI智能体像导航一样根据查询需求在这些图中灵活检索,从而显著提升了AI在复杂长程推理任务中的准确性和可解释性。
为何大语言模型尚非科学家:来自四次自主研究尝试的启示 / Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts
这篇论文通过四次让大语言模型自主生成机器学习研究论文的尝试,发现其中三次失败,揭示了AI在自主科研中存在的六大常见缺陷,并提出了构建更可靠AI科学家系统的设计原则。
请先 登录 后再提交论文