arXiv最新AI论文速览速学

🔍

标签: #evaluation framework ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 95 72小时内新更新论文 72h更新 100 最新: Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation 03-10

arXiv ID: 2603.08364

arXiv 提交日期: 2026-03-09

model training computer vision data diffusion models data augmentation image classification low-data regimes evaluation framework

基于扩散模型的图像识别数据增强：系统性分析与评估 / Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

1️⃣ 一句话总结

这篇论文提出了一个名为UniDiffDA的统一分析框架，将基于扩散模型的数据增强方法分解为三个核心环节，并在此基础上建立了一套公平的评估体系，通过大量实验揭示了不同策略的优劣，为在数据稀缺情况下有效利用扩散模型生成数据来提升图像分类性能提供了实用指南。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08704

arXiv 提交日期: 2026-03-09

llm financial benchmark financial intelligence evaluation framework model comparison hallucination rate analytical reasoning

评估大型语言模型的金融智能：基于LLM引擎的SuperInvesting AI基准测试 / Evaluating Financial Intelligence in Large Language Models: Benchmarking SuperInvesting AI with LLM Engines

1️⃣ 一句话总结

这篇论文提出了一个多维度的金融智能评估框架，通过测试发现，在复杂的投资研究任务中，结合了结构化金融数据访问和分析推理能力的AI系统（如SuperInvesting）表现最为可靠。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08291

arXiv 提交日期: 2026-03-09

multi-modal natural language processing model evaluation mathematical reasoning multimodal alignment reasoning verification structured perception evaluation framework

解构多模态数学推理：迈向统一的感知-对齐-推理范式 / Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

1️⃣ 一句话总结

这篇论文系统性地分析了当前多模态数学推理模型在处理图文结合的数学问题时面临的挑战，如误解图表和推理不一致，并提出通过整合结构化感知、显式对齐和可验证推理的统一框架来解决这些问题，为未来研究指明了方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08281

arXiv 提交日期: 2026-03-09

llm model evaluation natural language processing grant proposal review evaluation framework perturbation analysis expert simulation peer review

基于结构化扰动的LLM资助提案评审能力评估 / Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

1️⃣ 一句话总结

这项研究通过系统性地修改提案内容来测试大语言模型在评审科研资助申请时的能力，发现分章节评审效果最好，但模型普遍擅长检查格式合规性，而难以评估整体质量与清晰度，目前只能作为人工评审的辅助工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04123

arXiv 提交日期: 2026-03-04

llm model evaluation natural language processing sensitive topics response evaluation fine-grained taxonomy safety-helpfulness trade-off evaluation framework

FINEST：通过细粒度评估改进大语言模型对敏感话题的回应 / FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

1️⃣ 一句话总结

这篇论文提出了一个名为FINEST的细粒度评估框架，通过将敏感话题的回复质量分解为内容、逻辑和得体性三个维度的具体错误，指导大语言模型进行针对性改进，从而在保持安全性的同时显著提升回答的有用性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.03002

arXiv 提交日期: 2026-03-03

llm model evaluation benchmark spatial reasoning cognitive benchmark mental models evaluation framework text-only evaluation

SpatialText：一个用于评估大语言模型空间理解能力的纯文本认知基准 / SpatialText: A Pure-Text Cognitive Benchmark for Spatial Understanding in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为SpatialText的纯文本基准测试，通过分析大语言模型在空间推理任务中的系统性错误，发现它们主要依赖语言关联而非构建真正的内部空间心理模型，从而揭示了当前模型在空间认知上的根本局限。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02663

arXiv 提交日期: 2026-03-03

multi-modal model evaluation benchmark item response theory cross-modal reasoning evaluation framework vision-language models benchmark quality

利用多模态项目反应理论评估跨模态推理能力与问题特性 / Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

1️⃣ 一句话总结

本文提出了一种名为M3IRT的多模态项目反应理论框架，它能有效区分并筛选出真正需要跨模态推理的高质量测试问题，从而以更低的评估成本更可靠地衡量多模态大模型的综合理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02876

arXiv 提交日期: 2026-03-03

llm natural language processing model evaluation persona simulation conversational agents evaluation framework human-like dialogue speaker consistency

Eval4Sim：一种用于角色模拟的评估框架 / Eval4Sim: An Evaluation Framework for Persona Simulation

1️⃣ 一句话总结

这篇论文提出了一个名为Eval4Sim的评估框架，通过从‘忠实度’、‘一致性’和‘自然度’三个维度来衡量大型语言模型模拟的对话与真实人类对话模式的接近程度，从而更科学地评估角色模拟的质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.02153

arXiv 提交日期: 2026-03-02

llm systems model evaluation retrieval-augmented generation production deployment retrieval fusion evaluation framework latency constraints

规模化检索增强生成与RAG融合：来自工业部署的经验教训 / Scaling Retrieval Augmented Generation with RAG Fusion: Lessons from an Industry Deployment

1️⃣ 一句话总结

这篇论文通过实际工业部署发现，在检索增强生成系统中，单纯追求高召回率的融合检索技术（如多查询检索）并不能有效提升最终答案质量，反而可能增加系统延迟，因此需要更全面的端到端评估框架。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.24055

arXiv 提交日期: 2026-02-27

model evaluation systems general evaluation framework real-world deployment validation stakeholder concerns lifecycle assessment

CIRCLE：一个从现实世界视角评估AI的框架 / CIRCLE: A Framework for Evaluating AI from a Real-World Lens

1️⃣ 一句话总结

这篇论文提出了一个名为CIRCLE的六阶段框架，它通过将现实世界中利益相关者的关切转化为可测量的指标，来系统评估AI在实际部署中的真实效果，而不仅仅是其理论性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.08364

1️⃣ 一句话总结

arXiv ID: 2603.08704

1️⃣ 一句话总结

arXiv ID: 2603.08291

1️⃣ 一句话总结

arXiv ID: 2603.08281

1️⃣ 一句话总结

arXiv ID: 2603.04123

1️⃣ 一句话总结

arXiv ID: 2603.03002

1️⃣ 一句话总结

arXiv ID: 2603.02663

1️⃣ 一句话总结

arXiv ID: 2603.02876

1️⃣ 一句话总结

arXiv ID: 2603.02153

1️⃣ 一句话总结

arXiv ID: 2602.24055

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.08364 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08704 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08291 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08281 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04123 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.03002 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02663 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02876 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.02153 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.24055 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.08364

arXiv ID: 2603.08704

arXiv ID: 2603.08291

arXiv ID: 2603.08281

arXiv ID: 2603.04123

arXiv ID: 2603.03002

arXiv ID: 2603.02663

arXiv ID: 2603.02876

arXiv ID: 2603.02153

arXiv ID: 2602.24055