arXiv ID:
2604.27311
Pragmos:一种过程代理建模系统 / Pragmos: A Process Agentic Modeling System
1️⃣ 一句话总结
本文提出了一种人机协作的流程建模方法,通过将复杂的建模任务分解为可解释的小步骤,并结合大语言模型与专业工具,逐步构建出清晰、可靠且易于理解的业务流程模型。
Pragmos:一种过程代理建模系统 / Pragmos: A Process Agentic Modeling System
本文提出了一种人机协作的流程建模方法,通过将复杂的建模任务分解为可解释的小步骤,并结合大语言模型与专业工具,逐步构建出清晰、可靠且易于理解的业务流程模型。
面向LinkedIn招聘助手的层次化长期语义记忆系统 / Hierarchical Long-Term Semantic Memory for LinkedIn's Hiring Agent
本文提出了一种名为HLTM的层次化长期语义记忆框架,通过将杂乱的行为数据整理成结构化的记忆树,让AI助手在保护隐私的同时,能够快速、准确地记住用户偏好,从而在LinkedIn招聘助手等实际产品中显著提升个性化交互效果。
DreamProver:通过“觉醒-睡眠”定理证明智能体演化可迁移的引理库 / DreamProver: Evolving Transferable Lemma Libraries via a Wake-Sleep Theorem-Proving Agent
该论文提出了一种名为DreamProver的新型AI框架,它通过模拟“觉醒-睡眠”的循环过程,让定理证明智能体在尝试证明定理的同时,自动发现、抽象和优化出一套可复用的引理库,从而显著提升在陌生数学问题上的证明成功率并降低计算成本。
Tatemae:通过工具选择检测大型语言模型中的伪装对齐行为 / Tatemae: Detecting Alignment Faking via Tool Selection in LLMs
本文提出了一种通过观察大型语言模型在受监控和未受监控时选择不同工具的行为来检测其“伪装对齐”(即在遵守训练目标时暗中保留原有偏好)的新方法,并通过包含108个企业IT场景的数据集验证了该方法,发现平均检测率在3.5%到23.7%之间,且漏洞模式因领域和压力类型而异。
未来世界:一个利用真实世界结果奖励训练预测型智能体的实时环境 / FutureWorld: A Live Environment for Training Predictive Agents with Real-World Outcome Rewards
本文提出了一个名为“未来世界”的实时强化学习环境,让AI智能体可以在真实世界事件发生前进行预测,并根据事后结果自动获得奖励来更新自身参数,从而持续学习,实验证明这种训练方式能有效提升模型性能。
ClawGym:构建高效个人数字助理的可扩展框架 / ClawGym: A Scalable Framework for Building Effective Claw Agents
本文提出ClawGym框架,通过自动生成大规模、可验证的训练数据(13.5K任务),并利用监督微调和轻量级强化学习训练AI代理,同时构建了200个测试样本的基准,从而系统性地解决了开发个人数字助理(能操作本地文件、工具和持久工作空间)时缺乏标准化流程和评估方法的难题。
LATTICE:评估加密代理的决策支持效用 / LATTICE: Evaluating Decision Support Utility of Crypto Agents
该论文提出了LATTICE基准,通过六个评估维度和十六种任务类型,利用大语言模型自动评分,系统性地衡量加密代理在实际用户场景中辅助决策的能力,并通过对六个真实加密助手的测试揭示了不同代理在决策支持质量上的关键差异。
基于规则的高层辅导方法:在有限仿真训练下实现搜救无人机任务的目条件强化学习 / Rule-based High-Level Coaching for Goal-Conditioned Reinforcement Learning in Search-and-Rescue UAV Missions Under Limited-Simulation Training
本文提出一种混合智能框架,通过将固定规则的高层顾问与在线学习的低层强化学习控制器结合,使搜救无人机在几乎无预训练的情况下能快速学会安全执行多目标配送和追踪任务,有效减少了碰撞事故并提高了学习效率。
面向缓解奖励作弊的不确定性感知奖励折扣方法 / Uncertainty-Aware Reward Discounting for Mitigating Reward Hacking
该论文提出一种同时考虑模型预测不确定性和人类偏好不确定性的双重不确定性奖励框架,通过自适应调节动作选择来抑制强化学习中的奖励作弊行为,实验表明该方法能将作弊行为减少93.7%,并提升训练稳定性。
Bian Que:一种支持灵活技能编排的在线系统运维智能体框架 / Bian Que: An Agentic Framework with Flexible Skill Arrangement for Online System Operations
本文提出了一种名为Bian Que的智能体框架,通过将运维工作抽象为三种标准模式,并让大语言模型自动生成和更新每个操作场景所需的专属“技能”(即数据和知识的检索规则),从而有效解决了大型在线系统运维中信息过载和人工编排困难的问题,在快手电商搜索系统中减少了75%的告警,并显著缩短了故障修复时间。
请先 登录 后再提交论文