arXiv最新AI论文速览速学

🔍

标签: #human evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 98 72小时内新更新论文 72h更新 100 最新: Exploring Trust Calibration in XAI - The Impact of Exposing Model Limitations to Lay Users 05-24

arXiv ID: 2605.19936

arXiv 提交日期: 2026-05-19

natural language processing llm machine learning scientific writing style change reading experience corpus analysis human evaluation

大语言模型如何改变科学交流？——测量写作实践和阅读体验的变化 / What Are LLMs Doing to Scientific Communication? Measuring Changes in Writing Practices and Reading Experience

1️⃣ 一句话总结

这篇论文通过分析2020至2024年间自然语言处理领域的大量论文和对比人工写作与AI改进文本，发现大语言模型使学术写作的用词、句法和词汇多样性发生了显著变化，虽然读者认为AI辅助的文本更易懂、更精彩，但他们对这种行为也普遍持负面态度，揭示了AI对科学交流既有客观影响也有主观争议。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.18036

arXiv 提交日期: 2026-05-18

machine learning medical human evaluation trust calibration xai limitation disclosure skin lesion classification user study

可解释人工智能中的信任校准研究——向非专业用户暴露模型局限性的影响 / Exploring Trust Calibration in XAI - The Impact of Exposing Model Limitations to Lay Users

1️⃣ 一句话总结

本研究通过在线实验发现，向用户明确展示AI模型的局限性（如预测不可靠的情况）能显著提升其信任校准的准确性，但用户难以区分对单个案例的信任、可信度和准确性感知，且短期使用经验不足以自动改善信任偏差。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10730

arXiv 提交日期: 2026-05-11

multi-modal aigc model training image generation image editing multimodal diffusion transformer text rendering human evaluation

Qwen-Image-2.0 技术报告 / Qwen-Image-2.0 Technical Report

1️⃣ 一句话总结

本文介绍了一个名为Qwen-Image-2.0的统一图像生成与编辑基础模型，它通过将语言理解模型与扩散模型结合，在长文本渲染、多语言排版、高分辨率逼真画质和复杂指令遵循等关键任务上，显著超越了前代模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.03377

arXiv 提交日期: 2026-05-05

machine learning llm graph neural networks feature attribution explainability interpretability human evaluation

GRAFT：通过全局特征归因审计图神经网络 / GRAFT: Auditing Graph Neural Networks via Global Feature Attribution

1️⃣ 一句话总结

本文提出了一种名为GRAFT的新方法，能够从全局角度解释图神经网络（GNN）在做节点分类时依赖哪些输入特征，并通过自动生成通俗易懂的文字规则，帮助用户理解模型决策、发现潜在偏见或提升模型迁移效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.02122

arXiv 提交日期: 2026-05-04

machine learning model evaluation general human evaluation annotator disagreement ranking stability probabilistic modeling benchmark

STABLEVAL：一种考虑分歧且稳定的AI系统评估方法 / STABLEVAL: Disagreement-Aware and Stable Evaluation of AI Systems

1️⃣ 一句话总结

本文提出了一种名为STABLEVAL的新评估框架，它通过建模标注者之间的分歧和混淆模式，而不是简单地取多数票，从而在评估AI系统时获得比传统方法更稳定、更可靠的排名结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22585

arXiv 提交日期: 2026-02-26

model evaluation machine learning natural language processing item response theory human evaluation rater effects psychometric modeling data correction

基于项目反应理论校正AI评估中的人类评分者效应 / Correcting Human Labels for Rater Effects in AI Evaluation: An Item Response Theory Approach

1️⃣ 一句话总结

这篇论文提出使用心理测量学中的项目反应理论（特别是多面Rasch模型）来分析和校正AI评估中人类评分者的系统性偏差（如评分严格度或趋中性），从而获得更可靠、更真实的AI模型性能估计，并以摘要任务为例展示了该方法的应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.06329

arXiv 提交日期: 2026-01-09

audio model evaluation natural language processing spoken language models perplexity evaluation metrics speech generation human evaluation

论口语语言模型评估中全局词元困惑度的谬误 / On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation

1️⃣ 一句话总结

这篇论文指出，直接套用文本模型评估指标（全局词元困惑度）来评价口语生成模型是不准确的，并提出了一系列新的评估方法，这些新方法能更好地反映模型生成语音的真实质量，并显著缩小了最佳模型与人类水平之间的性能差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.02933

arXiv 提交日期: 2026-01-06

natural language processing model evaluation systems human evaluation machine translation evaluation platform multilingual nlp evaluation protocols

Pearmut：让人工翻译评估变得简单 / Pearmut: Human Evaluation of Translation Made Trivial

1️⃣ 一句话总结

这篇论文介绍了一个名为Pearmut的轻量级平台，它通过简化流程、支持多种标准评估方法并集成智能辅助功能，使得原本复杂耗时的人工翻译质量评估变得像自动评估一样便捷易行，从而有望让人工评估成为模型开发中的常规环节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.10062

arXiv 提交日期: 2025-10-11

model evaluation natural language processing benchmark text embeddings human evaluation performance gap multilingual evaluation embedding tasks

HUME：衡量文本嵌入任务中人类与模型性能差距 / HUME: Measuring the Human-Model Performance Gap in Text Embedding Tasks

1️⃣ 一句话总结

这篇论文提出了一个名为HUME的评估框架，通过测量人类在16种文本嵌入任务上的表现，发现当前最佳模型平均仅比人类表现高出2.5%，但在低资源语言任务中模型仍存在明显不足，为理解模型能力提供了重要参考基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.21106

arXiv 提交日期: 2025-09-25

llm benchmark model evaluation search-augmented llms personalization information retrieval human evaluation diagnostic feedback

BESPOKE：基于诊断反馈的检索增强大语言模型个性化定制基准 / BESPOKE: Benchmark for Search-Augmented Large Language Model Personalization via Diagnostic Feedback

1️⃣ 一句话总结

这项研究提出了一个名为BESPOKE的基准测试，通过收集真实用户聊天记录和搜索历史并搭配精细反馈，来系统评估检索增强大语言模型如何更好地理解不同用户的个性化需求并提供定制化信息。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2605.19936

1️⃣ 一句话总结

arXiv ID: 2605.18036

1️⃣ 一句话总结

arXiv ID: 2605.10730

1️⃣ 一句话总结

arXiv ID: 2605.03377

1️⃣ 一句话总结

arXiv ID: 2605.02122

1️⃣ 一句话总结

arXiv ID: 2602.22585

1️⃣ 一句话总结

arXiv ID: 2601.06329

1️⃣ 一句话总结

arXiv ID: 2601.02933

1️⃣ 一句话总结

arXiv ID: 2510.10062

1️⃣ 一句话总结

arXiv ID: 2509.21106

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2605.19936 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.18036 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10730 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.03377 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.02122 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22585 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.06329 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.02933 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.10062 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.21106 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2605.19936

arXiv ID: 2605.18036

arXiv ID: 2605.10730

arXiv ID: 2605.03377

arXiv ID: 2605.02122

arXiv ID: 2602.22585

arXiv ID: 2601.06329

arXiv ID: 2601.02933

arXiv ID: 2510.10062

arXiv ID: 2509.21106