arXiv ID:
2603.15558
全景可供性预测 / Panoramic Affordance Prediction
1️⃣ 一句话总结
这篇论文首次提出并解决了全景图像中的可供性预测问题,通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程,显著提升了AI智能体对360度全景环境的整体感知与交互能力。
全景可供性预测 / Panoramic Affordance Prediction
这篇论文首次提出并解决了全景图像中的可供性预测问题,通过构建一个大规模数据集并设计一种无需训练、由粗到细的仿生视觉处理流程,显著提升了AI智能体对360度全景环境的整体感知与交互能力。
HorizonMath:通过自动验证衡量AI在数学发现上的进展 / HorizonMath: Measuring AI Progress Toward Mathematical Discovery with Automatic Verification
这篇论文提出了一个名为HorizonMath的基准测试,包含100多个未解决的数学问题,旨在通过自动验证来评估AI是否能在数学研究中做出真正的新发现,并初步展示了先进模型在其中两个问题上取得了优于已知结果的潜在突破。
PokeAgent挑战:大规模竞争性与长上下文学习 / The PokeAgent Challenge: Competitive and Long-Context Learning at Scale
这篇论文提出了一个基于宝可梦游戏的大规模决策研究基准,包含对战和速通两个赛道,旨在通过竞争性、部分可观测和长程规划等复杂任务,来评估和推动强化学习与大语言模型的发展。
AURORA-KITTI:面向真实世界的全天候深度补全与去噪 / AURORA-KITTI: Any-Weather Depth Completion and Denoising in the Wild
这篇论文提出了首个大规模、多天气的深度补全基准数据集AURORA-KITTI,并设计了一个高效的基线模型DDCD,通过联合进行深度补全与去噪,显著提升了自动驾驶等场景在恶劣天气下的3D感知鲁棒性。
TopoBench:针对大语言模型在复杂拓扑推理任务上的基准测试 / TopoBench: Benchmarking LLMs on Hard Topological Reasoning
这篇论文提出了一个名为TopoBench的基准测试,用于评估大语言模型在解决涉及连通性、环路闭合等复杂空间关系的拓扑谜题时的能力,研究发现当前最先进的模型在难题上表现不佳,其核心瓶颈主要在于从空间表示中提取约束条件,而非对这些约束进行推理。
Legal-DC:面向法律文档的检索增强生成基准评测 / Legal-DC: Benchmarking Retrieval-Augmented Generation for Legal Documents
本研究针对中文法律场景,创建了一个专门的评测数据集并提出了一个能更好理解法律条文结构的智能问答框架,显著提升了法律文件咨询的准确性和可靠性。
HomeSafe-Bench:评估视觉语言模型在家庭场景具身智能体不安全动作检测中的表现 / HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios
这篇论文提出了一个专门用于测试AI家庭机器人安全性的新标准(HomeSafe-Bench),并设计了一个名为HD-Guard的双层智能监控系统,它通过‘快脑’快速筛查和‘慢脑’深度分析相结合的方式,在保证实时响应的同时,更准确地识别家庭环境中的危险动作。
MM-CondChain:一个用于视觉基础深度组合推理的、可通过程序验证的基准 / MM-CondChain: A Programmatically Verified Benchmark for Visually Grounded Deep Compositional Reasoning
这篇论文提出了一个名为MM-CondChain的新基准测试,专门用来评估多模态大语言模型在理解复杂视觉场景后,进行多步骤、有条件分支的深度逻辑推理的能力,结果发现当前最先进的模型在这项任务上仍有很大挑战。
CoMMET:大型语言模型能在多大程度上执行心智理论任务? / CoMMET: To What Extent Can LLMs Perform Theory of Mind Tasks?
这篇论文提出了一个名为CoMMET的新型多模态评估数据集,用于全面测试大型语言模型理解和推断他人心理状态的能力,发现现有模型在此类社交推理任务上仍有局限,并指出了未来改进方向。
EvoSchema:面向模式演化的文本到SQL模型鲁棒性研究 / EvoSchema: Towards Text-to-SQL Robustness Against Schema Evolution
这篇论文提出了一个名为EvoSchema的基准测试,用于系统评估和提升文本转SQL模型在面对真实数据库结构变化时的鲁棒性,发现表级改动比列级改动对模型性能影响更大,并展示了基于该基准训练的模型能有效避免学习虚假模式,从而更具适应性。
请先 登录 后再提交论文