arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 200 72小时内新更新论文 72h更新 205 最新: A Closer Look into LLMs for Table Understanding 03-17

arXiv ID: 2603.11342

arXiv 提交日期: 2026-03-11

natural language processing model evaluation machine learning explainable ai neural machine translation attention mechanisms knowledge distillation attribution methods

通过注意力引导的知识蒸馏评估神经机器翻译中的可解释AI归因方法 / Evaluating Explainable AI Attribution Methods in Neural Machine Translation via Attention-Guided Knowledge Distillation

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过让一个学生模型模仿老师模型的注意力模式来评估和比较不同的AI解释方法在机器翻译中的效果，发现基于注意力的解释方法最能提升翻译质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10800

arXiv 提交日期: 2026-03-11

machine learning systems model evaluation cellular traffic prediction spatial autocorrelation error correction 5g planning geospatial data

面向5G/6G规划的基于上下文聚类与误差修正的AI增强型空间蜂窝流量需求预测 / AI-Enhanced Spatial Cellular Traffic Demand Prediction with Contextual Clustering and Error Correction for 5G/6G Planning

1️⃣ 一句话总结

这篇论文提出了一个结合上下文感知数据划分和空间误差修正的AI框架，有效解决了蜂窝流量预测中因空间关联性导致的精度虚高问题，从而为5G/6G网络规划提供了更可靠的依据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11008

arXiv 提交日期: 2026-03-11

llm natural language processing model evaluation pseudo-relevance feedback information retrieval query refinement retrieval-augmented generation beir benchmark

基于大语言模型的伪相关反馈系统化研究 / A Systematic Study of Pseudo-Relevance Feedback with LLMs

1️⃣ 一句话总结

这篇论文通过系统实验发现，在使用大语言模型进行伪相关反馈时，反馈模型的选择对效果至关重要，仅用模型生成的文本作为反馈源最具性价比，而使用外部文档库作为反馈源则需依赖强大的初始检索器才能发挥最大效益。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10351

arXiv 提交日期: 2026-03-11

llm model evaluation natural language processing translationese bias multilingual evaluation information bottleneck disentangled representation reward modeling

通过解耦信息瓶颈缓解多语言LLM作为评判者时的翻译腔偏见 / Mitigating Translationese Bias in Multilingual LLM-as-a-Judge via Disentangled Information Bottleneck

1️⃣ 一句话总结

这篇论文提出了一种名为DIBJudge的微调框架，通过信息压缩和解耦技术，有效减少了大语言模型在多语言评估中普遍存在的、倾向于机器翻译文本而非人工参考译文的系统性偏见。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10619

arXiv 提交日期: 2026-03-11

natural language processing model evaluation llm topic models semantic similarity benchmark latent dirichlet allocation embedding evaluation

在主题模型中解耦相似性与关联性 / Disentangling Similarity and Relatedness in Topic Models

1️⃣ 一句话总结

这篇论文通过构建一个基于大语言模型的评估工具，揭示了不同主题模型在捕捉词汇的语义相似性和主题关联性上的差异，并证明这些差异能有效预测模型在下游任务中的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10400

arXiv 提交日期: 2026-03-11

llm systems model evaluation service systems sequential decision biased evaluation human-in-the-loop confidence sequences

基于文本证据的服务系统设计 / Designing Service Systems from Textual Evidence

1️⃣ 一句话总结

这篇论文提出了一种新算法，能够利用廉价但有偏见的大语言模型自动评分，结合少量精准但昂贵的人工审核，高效且可靠地找出最佳服务系统配置，从而大幅降低评估成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10477

arXiv 提交日期: 2026-03-11

llm model evaluation natural language processing prompt engineering evaluation metrics interpretability benchmarking automated evaluation

PEEM：用于提示与回答可解释联合评估的提示工程评估指标 / PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses

1️⃣ 一句话总结

这篇论文提出了一个名为PEEM的评估框架，它通过一套包含9个维度的结构化标准（如提示的清晰度、公平性，回答的准确性、连贯性等），并借助大语言模型自动给出评分和解释性理由，从而能系统地诊断和优化用户与大语言模型的交互过程，而不仅仅是判断答案对错。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10990

arXiv 提交日期: 2026-03-11

computer vision model evaluation aigc color fidelity text-to-image image generation evaluation metric realism calibration

过于鲜艳而不真实？生成式色彩保真度的基准测试与校准 / Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

1️⃣ 一句话总结

这篇论文针对当前文本生成图像模型在生成写实风格图片时颜色过于鲜艳失真的问题，提出了一个包含数据集、评估指标和优化方法的完整框架，旨在客观评估并提升生成图像的色彩真实感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10521

arXiv 提交日期: 2026-03-11

llm model training model evaluation instruction hierarchy safety robustness reinforcement learning adversarial training

IH挑战：一个用于提升前沿大语言模型指令层级能力的训练数据集 / IH-Challenge: A Training Dataset to Improve Instruction Hierarchy on Frontier LLMs

1️⃣ 一句话总结

这篇论文提出了一个名为IH-Challenge的训练数据集，专门用来训练大语言模型学会在接收到相互冲突的指令时，能按照预设的优先级（如系统指令高于用户指令）做出正确响应，从而有效抵御恶意攻击并提升模型的安全性，实验表明使用该数据集训练能显著提升模型在这方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10731

arXiv 提交日期: 2026-03-11

model evaluation machine learning theory uncertainty quantification model calibration conformal prediction monte carlo dropout reliability

超越准确率：卷积神经网络中的可靠性与不确定性估计 / Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

1️⃣ 一句话总结

这篇论文通过比较两种不确定性估计方法，指出在评估深度学习模型时，除了关注预测准确率，还必须重视模型预测的可靠性和校准程度，这对于高风险决策至关重要。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.11342

1️⃣ 一句话总结

arXiv ID: 2603.10800

1️⃣ 一句话总结

arXiv ID: 2603.11008

1️⃣ 一句话总结

arXiv ID: 2603.10351

1️⃣ 一句话总结

arXiv ID: 2603.10619

1️⃣ 一句话总结

arXiv ID: 2603.10400

1️⃣ 一句话总结

arXiv ID: 2603.10477

1️⃣ 一句话总结

arXiv ID: 2603.10990

1️⃣ 一句话总结

arXiv ID: 2603.10521

1️⃣ 一句话总结

arXiv ID: 2603.10731

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.11342 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10800 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11008 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10351 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10619 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10400 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10477 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10521 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10731 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.11342

arXiv ID: 2603.10800

arXiv ID: 2603.11008

arXiv ID: 2603.10351

arXiv ID: 2603.10619

arXiv ID: 2603.10400

arXiv ID: 2603.10477

arXiv ID: 2603.10990

arXiv ID: 2603.10521

arXiv ID: 2603.10731