arXiv ID:
2601.05111
智能体作为裁判 / Agent-as-a-Judge
1️⃣ 一句话总结
这篇论文系统性地总结了人工智能评估领域从‘大语言模型作为裁判’向‘智能体作为裁判’的范式转变,指出后者通过规划、工具验证和多智能体协作等方式,能对复杂任务进行更可靠、可验证的评估,并为此领域建立了首个全面的发展框架和研究路线图。
智能体作为裁判 / Agent-as-a-Judge
这篇论文系统性地总结了人工智能评估领域从‘大语言模型作为裁判’向‘智能体作为裁判’的范式转变,指出后者通过规划、工具验证和多智能体协作等方式,能对复杂任务进行更可靠、可验证的评估,并为此领域建立了首个全面的发展框架和研究路线图。
用户未言明之事:不明确的查询限制了视觉语言模型 / What Users Leave Unsaid: Under-Specified Queries Limit Vision-Language Models
这篇论文指出,用户真实的图像提问往往信息不完整,这导致当前顶尖的视觉语言模型表现不佳,而将问题描述得更清晰能显著提升模型回答的准确性,揭示了现有模型评估与现实应用之间存在巨大差距。
ROI-推理:通过预计算元认知实现推理的理性优化 / ROI-Reasoning: Rational Optimization for Inference via Pre-Computation Meta-Cognition
这篇论文提出了一种名为ROI-Reasoning的方法,它通过让大语言模型在生成答案前学会预估任务难度和计算成本,并据此在严格的计算资源限制下智能地选择解决或跳过某些问题,从而在数学推理任务中实现了更高效、更理性的计算资源分配。
Doc-PP:面向大型视觉语言模型的文档策略保持基准 / Doc-PP: Document Policy Preservation Benchmark for Large Vision-Language Models
这篇论文提出了一个名为Doc-PP的新基准,用于测试大型视觉语言模型在处理包含敏感信息的复杂文档时能否遵守保密策略,并发现模型在需要跨模态推理时容易泄露信息,为此提出了一个分解、验证、聚合的框架来提升安全性。
RedBench:一个用于大型语言模型全面红队测试的通用数据集 / RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models
这篇论文提出了一个名为RedBench的通用数据集,它整合了多个现有基准,通过标准化的风险分类和领域覆盖,来系统性地评估和比较大型语言模型在面对恶意或对抗性提示时的安全漏洞,以促进更安全可靠的模型开发。
作为软件工程智能体上下文验证器的“能动性评估准则” / Agentic Rubrics as Contextual Verifiers for SWE Agents
这篇论文提出了一种名为‘能动性评估准则’的新方法,它让一个专家智能体通过分析代码库来生成一份具体的检查清单,然后无需运行测试就能直接评估代码补丁的质量,从而为软件工程智能体提供了一种更高效、可扩展且易于理解的验证信号。
基准的基准:对大语言模型评测基准的系统性评估 / Benchmark^2: Systematic Evaluation of LLM Benchmarks
这篇论文提出了一个名为Benchmark^2的框架,用于评估现有大语言模型评测基准本身的质量好坏,发现不同基准质量差异很大,并证明用他们的方法筛选题目能大幅减少测试题量而不影响评估效果。
迈向大型语言模型在事实核查中的全面分阶段基准测试 / Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking
这篇论文提出了一个名为FactArena的全自动评估框架,通过模拟完整的事实核查流程(包括声明提取、证据检索和最终判断)来全面测试大型语言模型的真实能力,发现仅测试最终验证环节会掩盖模型的系统性缺陷,从而为开发更可靠的事实核查AI提供了新的评估范式。
AnyDepth:让深度估计变得简单 / AnyDepth: Depth Estimation Made Easy
这篇论文提出了一个名为AnyDepth的轻量级框架,通过使用高质量的视觉编码器、设计更简单的解码器以及优化训练数据质量,在无需针对特定场景进行额外训练的情况下,实现了更高效且更准确的单张图像深度估计。
为何大语言模型尚非科学家:来自四次自主研究尝试的启示 / Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts
这篇论文通过四次让大语言模型自主生成机器学习研究论文的尝试,发现其中三次失败,揭示了AI在自主科研中存在的六大常见缺陷,并提出了构建更可靠AI科学家系统的设计原则。
请先 登录 后再提交论文