arXiv最新AI论文速览速学

🔍

标签: #llm evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 99 72小时内新更新论文 72h更新 100 最新: Merit or networks? What decides where research is published 06-03

arXiv ID: 2606.03763

arXiv 提交日期: 2026-06-02

llm general idea quality connections publication outcomes economics llm evaluation

论文质量与人际网络：什么决定了研究成果的发表期刊层级？ / Merit or networks? What decides where research is published

1️⃣ 一句话总结

本研究通过大规模分析经济学工作论文，发现论文发表期刊的层级主要取决于研究执行质量（奠定基础）、想法新颖性（提升档次）以及作者人际网络（仅在顶尖期刊发挥上限作用），且三者共同构成了一个阶梯式的评价过程，而非简单的二选一。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.10896

arXiv 提交日期: 2026-05-11

financial benchmark machine learning corporate bankruptcy prediction class imbalance tabular foundation models llm evaluation transfer learning

V4FinBench：针对企业破产预测的表格基础模型、大语言模型与标准方法基准测试 / V4FinBench: Benchmarking Tabular Foundation Models, LLMs, and Standard Methods on Corporate Bankruptcy Prediction

1️⃣ 一句话总结

本文提出了一个包含超过一百万条公司年度记录的大规模公开破产预测基准数据集V4FinBench，并通过实验发现，经过不平衡感知微调的表格基础模型TabPFN在长期预测上能媲美甚至超越传统梯度提升方法，而大语言模型Llama-3-8B在这项任务上整体表现较弱。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.27405

arXiv 提交日期: 2026-04-30

llm model evaluation reliable change index llm evaluation item-level analysis churn rate mmlu-pro

超越均值：面向大模型评估的模型内可靠变化检测 / Beyond the Mean: Within-Model Reliable Change Detection for LLM Evaluation

1️⃣ 一句话总结

本文引入临床心理学中的可靠变化指数（RCI），对LLM版本升级（如Llama 3→3.1和Qwen 2.5→3）进行逐题比较，发现平均准确率的小幅提升掩盖了大规模的双向性能波动（有的题目大幅进步，有的严重退步），且多数题目变化无实质意义，因此建议在汇报平均分数时必须同时报告“变化率”指标。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12161

arXiv 提交日期: 2026-04-14

medical llm multi-agents clinical workflow chart summarization llm evaluation tumor board deployment

用于胸部肿瘤多学科会诊的多智能体系统的开发、评估与部署 / Development, Evaluation, and Deployment of a Multi-Agent System for Thoracic Tumor Board

1️⃣ 一句话总结

这项研究开发并部署了一个自动化AI系统，用于在胸部肿瘤多学科会诊中自动生成精炼的患者病例摘要，以提高会诊效率，并通过评估验证了其有效性，是AI工作流融入常规临床实践的成功案例。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.28515

arXiv 提交日期: 2026-03-30

llm natural language processing data scientific writing revision dataset text revision latex traces llm evaluation

EarlySciRev：一个从LaTeX写作痕迹中提取的早期科学修订数据集 / EarlySciRev: A Dataset of Early-Stage Scientific Revisions Extracted from LaTeX Writing Traces

1️⃣ 一句话总结

这篇论文创建了一个名为EarlySciRev的新数据集，它通过分析学术论文LaTeX源文件中作者注释掉的旧文本，自动提取了大量真实的早期写作修订记录，为研究写作过程和开发AI辅助写作工具提供了宝贵资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.27414

arXiv 提交日期: 2026-03-28

model evaluation machine learning theory statistical inference budget allocation llm evaluation minimax optimality data sources

多重预测驱动的统计推断 / Multiple-Prediction-Powered Inference

1️⃣ 一句话总结

这篇论文提出了一个名为MultiPPI的新框架，它能够智能地组合昂贵但准确的数据和廉价但粗糙的预测模型，在给定预算下实现更精确的统计估计，并在大语言模型评估等实际场景中证明了其优越性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09373

arXiv 提交日期: 2026-03-10

llm natural language processing data spatial categorization dataset coverage cross-linguistic variation topological relations llm evaluation

量化与扩展空间分类数据集的覆盖范围 / Quantifying and extending the coverage of spatial categorization data sets

1️⃣ 一句话总结

这篇论文提出了一种利用大语言模型（LLMs）生成的空间关系标签来指导扩展空间分类数据集的方法，通过增加新场景显著提升了数据集的覆盖范围，为构建包含更多语言和场景的大规模数据集奠定了基础。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15757

arXiv 提交日期: 2026-02-17

natural language processing multi-modal model evaluation sexism detection multimodal dataset fine-grained classification social media analysis llm evaluation

超越二元分类：检测社交媒体视频中的细粒度性别歧视 / Beyond Binary Classification: Detecting Fine-Grained Sexism in Social Media Videos

1️⃣ 一句话总结

这篇论文通过构建一个包含细粒度标注的西班牙语多模态数据集，并评估多种大语言模型，发现多模态模型能有效识别复杂的性别歧视内容，但在处理视觉信息中的多重歧视类型时仍有困难。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14406

arXiv 提交日期: 2026-02-16

natural language processing data llm argument mining stance detection social media analysis dataset llm evaluation

TruthStance：一个关于Truth Social平台对话的标注数据集 / TruthStance: An Annotated Dataset of Conversations on Truth Social

1️⃣ 一句话总结

这篇论文创建并发布了一个名为TruthStance的大规模标注数据集，专门用于研究主流平台之外、在Truth Social上的对话结构、论点挖掘和立场检测，并评估了大型语言模型在这些任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21817

arXiv 提交日期: 2026-01-29

llm model evaluation benchmark llm evaluation judge-aware ranking bradley-terry-luce pairwise comparison uncertainty quantification

一种无需真实标签评估大语言模型的法官感知排序框架 / A Judge-Aware Ranking Framework for Evaluating Large Language Models without Ground Truth

1️⃣ 一句话总结

这篇论文提出了一种新的评估方法，通过考虑不同AI‘裁判’的可靠性差异来更准确地给大语言模型排名，无需标准答案，从而得到更可信、更高效的评估结果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.03763

1️⃣ 一句话总结

arXiv ID: 2605.10896

1️⃣ 一句话总结

arXiv ID: 2604.27405

1️⃣ 一句话总结

arXiv ID: 2604.12161

1️⃣ 一句话总结

arXiv ID: 2603.28515

1️⃣ 一句话总结

arXiv ID: 2603.27414

1️⃣ 一句话总结

arXiv ID: 2603.09373

1️⃣ 一句话总结

arXiv ID: 2602.15757

1️⃣ 一句话总结

arXiv ID: 2602.14406

1️⃣ 一句话总结

arXiv ID: 2601.21817

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.03763 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.10896 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.27405 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12161 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.28515 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.27414 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09373 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15757 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14406 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21817 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.03763

arXiv ID: 2605.10896

arXiv ID: 2604.27405

arXiv ID: 2604.12161

arXiv ID: 2603.28515

arXiv ID: 2603.27414

arXiv ID: 2603.09373

arXiv ID: 2602.15757

arXiv ID: 2602.14406

arXiv ID: 2601.21817