arXiv ID:
2603.15558
全景可供性预测 / Panoramic Affordance Prediction
1️⃣ 一句话总结
这篇论文首次提出并解决了全景图像中的可供性预测问题,通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程,显著提升了AI智能体对360度全景环境的整体感知与交互能力。
全景可供性预测 / Panoramic Affordance Prediction
这篇论文首次提出并解决了全景图像中的可供性预测问题,通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程,显著提升了AI智能体对360度全景环境的整体感知与交互能力。
MA-VLCM:一种用于多智能体团队场景中策略价值评估的视觉语言批评模型 / MA-VLCM: A Vision Language Critic Model for Value Estimation of Policies in Multi-Agent Team Settings
这篇论文提出了一种新方法,利用预训练好的视觉语言大模型来快速评估多机器人团队的合作表现,从而大幅减少了训练所需的数据量,并能让训练好的策略直接部署在计算资源有限的真实机器人上。
POLCA:基于大语言模型的随机生成式优化框架 / POLCA: Stochastic Generative Optimization with LLM
这篇论文提出了一个名为POLCA的新型优化框架,它利用大语言模型作为优化器,通过结合奖励反馈和历史经验,高效且鲁棒地自动优化复杂的系统(如提示词或多轮智能体),并在多种任务上超越了现有方法。
桥接场景生成与规划:通过统一视觉与运动表征实现基于世界模型的驾驶 / Bridging Scene Generation and Planning: Driving with World Model via Unifying Vision and Motion Representation
这篇论文提出了一个名为WorldDrive的自动驾驶框架,它通过统一视觉和运动表征,将预测未来场景的生成模型与实时运动规划紧密结合,从而在保证高质量视频生成的同时,实现了领先的纯视觉规划性能。
SKILLS:面向大语言模型驱动的电信运营的结构化知识注入 / SKILLS: Structured Knowledge Injection for LLM-Driven Telecommunications Operations
这篇论文提出了一个名为SKILLS的基准框架,通过实验证明,为通用大语言模型注入电信领域的结构化知识(如工作流逻辑和API规范),能显著提升其在真实电信运营场景中执行自动化任务的准确性和可靠性。
PMAx:一种用于人工智能驱动流程挖掘的智能体框架 / PMAx: An Agentic Framework for AI-Driven Process Mining
这篇论文提出了一个名为PMAx的智能体框架,它通过将计算与解释分离,并利用本地脚本执行分析,解决了大语言模型在流程挖掘中可能产生幻觉和隐私泄露的问题,使得非技术用户也能通过自然语言提问获得准确、可靠的流程洞察。
PokeAgent挑战:大规模竞争性与长上下文学习 / The PokeAgent Challenge: Competitive and Long-Context Learning at Scale
这篇论文提出了一个基于宝可梦游戏的大规模决策研究基准,包含对战和速通两个赛道,旨在通过竞争性、部分可观测和长程规划等复杂任务,来评估和推动强化学习与大语言模型的发展。
倾听回声:基于标量-语言混合强化学习的用户反应感知策略优化 / Listening to the Echo: User-Reaction Aware Policy Optimization via Scalar-Verbal Hybrid Reinforcement Learning
这篇论文提出了一种新的情感支持对话系统优化方法,它不再依赖专家定义的单一评分,而是通过模拟用户在对话中的实时反应来生成更丰富的语言反馈,从而更有效地引导对话走向积极的情感转变。
多智能体强化学习中的干扰感知K步可达通信 / Interference-Aware K-Step Reachable Communication in Multi-Agent Reinforcement Learning
这篇论文提出了一个名为IA-KRC的新框架,通过限制通信范围到物理可达的邻居以及预测并最小化干扰来优化合作伙伴选择,从而在多智能体协作任务中实现了更高效、更鲁棒的通信与合作。
ARROW:用于鲁棒世界模型的增强回放 / ARROW: Augmented Replay for RObust World models
这篇论文提出了一种名为ARROW的新型持续强化学习算法,它通过引入一个受神经科学启发的、高效的双重回放缓冲区来训练一个世界模型,从而在让智能体学习新任务的同时,显著减少对旧任务的遗忘,并保持知识迁移能力。
请先 登录 后再提交论文