arXiv最新AI论文速览速学

🔍

标签: #decision support ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: Measuring What Matters: Synthetic Benchmarks for Concept Bottleneck Models 06-04

arXiv ID: 2606.04326

arXiv 提交日期: 2026-06-03

machine learning model evaluation benchmark concept bottleneck models synthetic benchmarks interpretability decision support automation

衡量关键要素：概念瓶颈模型的合成基准测试 / Measuring What Matters: Synthetic Benchmarks for Concept Bottleneck Models

1️⃣ 一句话总结

本文针对概念瓶颈模型缺乏真实概念标签数据集的问题，设计了一套可控制数据模态、概念选择、标注质量等关键因素的合成基准测试，用于评估模型在辅助决策和自动化任务中的表现，并帮助诊断其失败模式。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.26235

arXiv 提交日期: 2026-04-29

agents llm evaluation crypto benchmark decision support llm judges copilot

LATTICE：评估加密代理的决策支持效用 / LATTICE: Evaluating Decision Support Utility of Crypto Agents

1️⃣ 一句话总结

该论文提出了LATTICE基准，通过六个评估维度和十六种任务类型，利用大语言模型自动评分，系统性地衡量加密代理在实际用户场景中辅助决策的能力，并通过对六个真实加密助手的测试揭示了不同代理在决策支持质量上的关键差异。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21889

arXiv 提交日期: 2026-02-25

agents theory model evaluation decision support bayesian inference human-ai interaction causal inference simulation

两步智能体：决策者与人工智能决策支持交互的框架 / 2-Step Agent: A Framework for the Interaction of a Decision Maker with AI Decision Support

1️⃣ 一句话总结

这篇论文提出了一个名为‘两步智能体’的计算框架，用于模拟人工智能决策支持对决策者的影响，并通过模拟发现，即使决策者只有一个错误的初始信念，使用AI支持也可能导致比不用更糟糕的决策结果，从而揭示了AI辅助决策的潜在风险。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.11387

arXiv 提交日期: 2026-01-16

llm natural language processing model evaluation fact-checking explainable ai evidence evaluation human-ai interaction decision support

给我看证据：评估证据和自然语言解释在AI辅助事实核查中的作用 / Show me the evidence: Evaluating the role of evidence and natural language explanations in AI-supported fact-checking

1️⃣ 一句话总结

这项研究发现，在AI辅助事实核查中，用户最依赖的是直接查看证据来验证AI的判断，而自然语言解释仅作为辅助，当解释不够充分时，用户会转而寻求证据支持。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01191

arXiv 提交日期: 2025-12-01

medical llm model evaluation clinical ai benchmark medical knowledge decision support evaluation

通用大语言模型在医学基准测试中表现优于临床工具 / Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks

1️⃣ 一句话总结

这项研究发现，像GPT-5这样的前沿通用大语言模型在医学知识和临床推理的测试中，比市面上专门用于临床决策支持的AI工具表现更好，揭示了后者在部署前缺乏独立评估的风险。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.04326

1️⃣ 一句话总结

arXiv ID: 2604.26235

1️⃣ 一句话总结

arXiv ID: 2602.21889

1️⃣ 一句话总结

arXiv ID: 2601.11387

1️⃣ 一句话总结

arXiv ID: 2512.01191

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.04326 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.26235 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21889 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.11387 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01191 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.04326

arXiv ID: 2604.26235

arXiv ID: 2602.21889

arXiv ID: 2601.11387

arXiv ID: 2512.01191