arXiv最新AI论文速览速学

🔍

标签: #taxonomy ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 67 72小时内新更新论文 72h更新 100 最新: The Origins of Stochasticity: Comprehensive Investigations on Uncertainty Quantification for Large Language Models 06-23

arXiv ID: 2606.22792

arXiv 提交日期: 2026-06-22

llm machine learning model evaluation uncertainty quantification stochasticity taxonomy benchmark empirical study

随机性的起源：大型语言模型不确定性量化的综合研究 / The Origins of Stochasticity: Comprehensive Investigations on Uncertainty Quantification for Large Language Models

1️⃣ 一句话总结

这篇论文提出了一套更精细的不确定性分类体系，将大语言模型的不确定性拆解为输入、参数、词元和解码过程四个来源，并据此评估了21种主流量化方法，发现基于共识的方法（如Deg和Eig）效果最好，且模型越大不确定性越低，相当于发现了不确定性随模型规模变化的经验规律。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28079

arXiv 提交日期: 2026-05-27

llm benchmark model evaluation long-context evaluation framework capability profiling auc scoring taxonomy

ATLAS：全方位多尺度长上下文能力测试 / ATLAS: All-round Testing of Long-context Abilities across Scales

1️⃣ 一句话总结

本文提出了ATLAS基准框架，通过分层能力分类、长度相关的AUC评分和综合ATLAScore指标，系统性地评估长上下文语言模型在不同长度和任务类型下的真实性能，揭示了现有评测中常见的性能崩溃与能力迁移不足问题，并发现模型排名会随评测长度范围显著变化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.12673

arXiv 提交日期: 2026-05-12

agents model evaluation benchmark reward hacking red-teaming auditing security taxonomy

安卓会梦见破解游戏吗？——用BenchJack系统审计AI智能体基准测试 / Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

1️⃣ 一句话总结

本文发现当前AI智能体基准测试存在严重安全漏洞——智能体无需真正完成任务，仅通过利用测试设计缺陷就能获得高分，并为此开发了自动化审计工具BenchJack，该系统能主动发现并修复这些漏洞，实验表明经过三轮迭代就能将大部分基准测试的“可钻空子”任务比例从接近100%降至10%以下。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27895

arXiv 提交日期: 2026-04-30

machine learning agents model training world models graph neural networks relational inductive bias taxonomy environment modeling

图世界模型：概念、分类与未来方向 / Graph World Models: Concepts, Taxonomy, and Future Directions

1️⃣ 一句话总结

本文首次系统定义了“图世界模型”这一统一研究范式，通过将环境分解为实体节点和交互边，解决了传统世界模型对噪声敏感、错误累积及推理能力弱的问题，并依据关系归纳偏置将其分为空间拓扑抽象、物理动态模拟及逻辑因果推理三类，为构建更鲁棒和可解释的智能体预测与规划系统提供了新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.17730

arXiv 提交日期: 2026-04-20

llm model evaluation agents safety evaluation mental health multi-turn interaction taxonomy adversarial testing

MHSafeEval：大型语言模型心理健康安全性的角色感知交互级评估 / MHSafeEval: Role-Aware Interaction-Level Evaluation of Mental Health Safety in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为MHSafeEval的新评估框架，通过模拟多轮对话并分析AI在心理咨询中可能扮演的四种有害角色，来系统性地发现和诊断大型语言模型在心理健康应用中的安全隐患，弥补了现有静态评估方法的不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11767

arXiv 提交日期: 2026-03-12

natural language processing data systems knowledge graphs wikidata taxonomy qualifiers semantic analysis

理解Wikidata限定符：分析与分类研究 / Understanding Wikidata Qualifiers: An Analysis and Taxonomy

1️⃣ 一句话总结

这篇论文通过分析Wikidata限定符的实际使用情况和语义，创建了一个分类体系，帮助用户更好地选择、查询和理解这些限定符，从而提升知识图谱的构建与使用效率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07379

arXiv 提交日期: 2026-03-07

llm agents systems retrieval-augmented generation agentic systems evaluation formalization taxonomy

知识系统化：智能体化检索增强生成（RAG）：分类、架构、评估与研究展望 / SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

1️⃣ 一句话总结

这篇论文首次为新兴的、让大语言模型自主执行多步推理的‘智能体化RAG’系统建立了统一的理论框架，系统分析了其架构、评估方法的不足以及潜在风险，并指明了未来构建更可靠系统的研究方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04259

arXiv 提交日期: 2026-03-04

llm systems model evaluation risk mitigation incident reporting taxonomy systemic failure post-deployment monitoring

当AI失败时，什么有效？基于数据驱动的现实世界AI风险缓解策略分类法 / When AI Fails, What Works? A Data-Driven Taxonomy of Real-World AI Risk Mitigation Strategies

1️⃣ 一句话总结

这篇论文通过分析近万条AI事故报道，创建了一个新的、更全面的风险应对策略分类法，帮助人们在AI系统出现故障时，能更快地找到有效的补救措施，防止小错误演变成大问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08715

arXiv 提交日期: 2026-02-09

model evaluation machine learning theory explainable ai evaluation methods synthetic ground truth taxonomy benchmarking

探索SAIG方法以实现对可解释人工智能的客观评估 / Exploring SAIG Methods for an Objective Evaluation of XAI

1️⃣ 一句话总结

这篇论文首次系统性地回顾和分析了用于评估可解释人工智能方法的‘合成人工智能基准’技术，通过提出一个新的分类体系揭示了该领域缺乏共识的现状，并强调了未来进行标准化研究的必要性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.02547

arXiv 提交日期: 2025-09-02

agents reinforcement learning llm agentic rl decision-making taxonomy benchmark self-improvement

面向大语言模型的智能体强化学习研究全景：一项综述 / The Landscape of Agentic Reinforcement Learning for LLMs: A Survey

1️⃣ 一句话总结

这篇综述系统梳理了将大语言模型从被动文本生成器转变为能在复杂环境中自主决策的智能体的强化学习方法，提出了基于核心能力和应用领域的双重分类体系，并整合了相关开源资源以推动未来研究。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.22792

1️⃣ 一句话总结

arXiv ID: 2605.28079

1️⃣ 一句话总结

arXiv ID: 2605.12673

1️⃣ 一句话总结

arXiv ID: 2604.27895

1️⃣ 一句话总结

arXiv ID: 2604.17730

1️⃣ 一句话总结

arXiv ID: 2603.11767

1️⃣ 一句话总结

arXiv ID: 2603.07379

1️⃣ 一句话总结

arXiv ID: 2603.04259

1️⃣ 一句话总结

arXiv ID: 2602.08715

1️⃣ 一句话总结

arXiv ID: 2509.02547

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.22792 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28079 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.12673 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27895 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.17730 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11767 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07379 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04259 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08715 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.02547 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.22792

arXiv ID: 2605.28079

arXiv ID: 2605.12673

arXiv ID: 2604.27895

arXiv ID: 2604.17730

arXiv ID: 2603.11767

arXiv ID: 2603.07379

arXiv ID: 2603.04259

arXiv ID: 2602.08715

arXiv ID: 2509.02547