📄 论文总结
Morae:主动暂停UI代理以支持用户选择 / Morae: Proactively Pausing UI Agents for User Choices
1️⃣ 一句话总结
这篇论文提出了一种名为Morae的UI代理,它能在执行任务时自动识别关键决策点并暂停,让用户参与选择,从而在提升自动化效率的同时保障用户自主权,尤其改善了视障用户的使用体验。
请先 登录 后再提交论文
Morae:主动暂停UI代理以支持用户选择 / Morae: Proactively Pausing UI Agents for User Choices
这篇论文提出了一种名为Morae的UI代理,它能在执行任务时自动识别关键决策点并暂停,让用户参与选择,从而在提升自动化效率的同时保障用户自主权,尤其改善了视障用户的使用体验。
UItron:具备高级感知与规划能力的GUI基础智能体 / UItron: Foundational GUI Agent with Advanced Perception and Planning
这篇论文提出了一个名为UItron的开源GUI基础智能体,它通过系统化的数据工程和交互式训练框架,显著提升了在移动端和PC端图形界面上的感知、定位与任务规划能力,尤其在中文应用场景中表现出色。
基于代码生成模型的高效代码嵌入方法 / Efficient Code Embeddings from Code Generation Models
这篇论文提出了一种名为jina-code-embeddings的新型代码嵌入模型,它通过创新的方式利用预训练的文本和代码生成模型来创建代码向量,能够在代码检索、技术问答和跨语言代码相似性识别等任务中实现领先性能,且模型规模相对较小。
AWorld:编排智能体AI训练方案的协调系统 / AWorld: Orchestrating the Training Recipe for Agentic AI
这篇论文提出了一个名为AWorld的开源系统,通过分布式计算将智能体与环境交互的经验收集速度提升14.6倍,并基于此训练出在GAIA基准测试中性能超越GPT-4o、媲美DeepSeek-V3的智能体,为高效智能体AI训练提供了完整解决方案。
CODA:通过解耦强化学习协调大脑与小脑的双脑计算机使用代理 / CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning
这篇论文提出了一个名为CODA的新型智能代理框架,它通过结合通用规划器和专业执行器的双脑协作方式,解决了科学计算等专业领域中图形界面自动化任务在长期规划和精确执行之间的平衡问题,并在实验中取得了领先的性能。
驯服混沌:面向异构与解耦大语言模型推理的协同自动扩缩容 / Taming the Chaos: Coordinated Autoscaling for Heterogeneous and Disaggregated LLM Inference
这篇论文提出了一个名为HeteroScale的协同自动扩缩容框架,通过统一指标和拓扑感知调度,解决了大语言模型推理中异构硬件和解耦架构导致的资源利用不均与性能瓶颈问题,在实际大规模部署中显著提升了GPU利用率并节省了大量计算资源。
FastMesh:通过组件解耦实现高效艺术化网格生成 / FastMesh: Efficient Artistic Mesh Generation via Component Decoupling
这篇论文提出了一种将顶点和面分离生成的新方法,通过减少重复顶点表达使网格生成速度提升8倍以上,同时生成质量更高。
UltraMemV2:扩展到1200亿参数并具备卓越长上下文学习能力的内存网络 / UltraMemV2: Memory Networks Scaling to 120B Parameters with Superior Long-Context Learning
这项研究提出了名为UltraMemV2的新型内存网络架构,通过五项关键技术改进,在保持低内存访问成本的同时,首次实现了与顶尖8专家混合模型相当的性能,并在长文本记忆等任务上表现更优。
从矢量图到CAD:基于序列到序列学习的CAD生成 / Drawing2CAD: Sequence-to-Sequence Learning for CAD Generation from Vector Drawings
这篇论文提出了一种名为Drawing2CAD的新方法,能够将二维工程矢量图自动转换为精确的参数化CAD模型,通过序列到序列学习技术保留了原始设计意图和几何精度。
利用CTF-Dojo训练语言模型代理发现漏洞 / Training Language Model Agents to Find Vulnerabilities with CTF-Dojo
这篇论文提出了一个名为CTF-Dojo的大规模可执行训练平台,通过自动生成网络安全挑战环境来高效训练语言模型代理,仅用少量高质量数据就显著提升了模型在多个基准测试中的表现,达到了与顶尖模型相媲美的水平。