arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 88 72小时内新更新论文 72h更新 188 最新: Omni IIE Bench: Benchmarking the Practical Capabilities of Image Editing Models 03-21

arXiv ID: 2602.15532

arXiv 提交日期: 2026-02-17

llm model evaluation benchmark construct validity latent factor models scaling laws capability measurement performance prediction

量化大语言模型评估中的构念效度 / Quantifying construct validity in large language model evaluations

1️⃣ 一句话总结

这篇论文提出了一种新的‘结构化能力模型’，通过结合潜在因子模型和缩放定律的优点，从大量基准测试结果中提取出可解释且可泛化的模型能力，从而更准确地评估大语言模型的真实水平，避免仅依赖有缺陷的基准分数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15499

arXiv 提交日期: 2026-02-17

theory model evaluation machine learning lipschitz constant neural networks robustness guarantees piecewise linear exact computation

ExLipBaB：面向分段线性神经网络的确切利普希茨常数计算 / ExLipBaB: Exact Lipschitz Constant Computation for Piecewise Linear Neural Networks

1️⃣ 一句话总结

这篇论文提出了一种名为ExLipBaB的新算法，能够精确计算使用各种分段线性激活函数（如ReLU、LeakyReLU、GroupSort等）的神经网络在任意p-范数下的利普希茨常数，为评估模型鲁棒性、可逆网络设计等应用提供了精确的基准工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15481

arXiv 提交日期: 2026-02-17

llm model evaluation theory llm-as-a-judge budget allocation multi-armed bandit variance-adaptive automated assessment

预算约束下的LLM即法官 / LLM-as-Judge on a Budget

1️⃣ 一句话总结

这篇论文提出了一种在有限计算资源下，通过动态分配查询次数来更准确评估大语言模型性能的智能方法，其核心是优先将资源用于不确定性最高的评估项，从而显著降低整体评估误差。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15669

arXiv 提交日期: 2026-02-17

llm model training model evaluation personality control activation vectors inference-time control vector algebra behavioral control

PERSONA：基于激活向量代数的动态组合式推理时人格控制 / PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra

1️⃣ 一句话总结

这篇论文提出了一个名为PERSONA的新方法，它无需额外训练，仅通过在模型内部激活空间中直接操作代表不同人格特质的向量，就能像精细调优一样动态、灵活地控制大语言模型表现出特定或组合的人格特征。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15169

arXiv 提交日期: 2026-02-16

machine learning theory model evaluation symbolic regression scattering amplitudes klt relations feature selection gauge theory

从数据中学习S矩阵：通过符号回归从规范理论重新发现引力 / Learning the S-matrix from data: Rediscovering gravity from gauge theory via symbolic regression

1️⃣ 一句话总结

这篇论文展示了如何利用现代机器学习方法，仅通过数值数据就能自动重新发现散射振幅中的关键数学关系，特别是从规范理论推导出引力理论的核心公式，为探索物理理论的深层结构提供了一种数据驱动的新途径。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14869

arXiv 提交日期: 2026-02-16

llm model training model evaluation training data attribution interpretability influence functions concept-based attribution scalable methods

概念影响力：利用可解释性提升训练数据归因的性能与效率 / Concept Influence: Leveraging Interpretability to Improve Performance and Efficiency in Training Data Attribution

1️⃣ 一句话总结

这篇论文提出了一种名为‘概念影响力’的新方法，它通过分析模型内部可解释的语义概念（而非单个测试样本）来追溯训练数据对模型行为的影响，从而在保持准确性的同时，大幅提升了归因分析的效率和可扩展性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14970

arXiv 提交日期: 2026-02-16

llm model evaluation systems fairness evaluation counterfactual analysis contact center bias detection quality assurance

基于大语言模型的客服中心坐席质量保障系统的反事实公平性评估 / Counterfactual Fairness Evaluation of LLM-Based Contact Center Agent Quality Assurance System

1️⃣ 一句话总结

这项研究通过反事实公平性评估发现，尽管大语言模型能高效评估客服坐席表现，但其评估结果会因坐席的身份、对话背景和行为风格等特征而产生系统性偏差，且简单的提示词优化难以完全消除这种偏差，因此在关键的人力评估场景中部署前需进行标准化公平性审计。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15021

arXiv 提交日期: 2026-02-16

machine learning model training model evaluation stellar parameter estimation cross-survey generalization neural networks spectral analysis fine-tuning strategies

利用神经网络从低分辨率光谱泛化到中分辨率光谱进行恒星参数估计：以DESI为例的案例研究 / Generalization from Low- to Moderate-Resolution Spectra with Neural Networks for Stellar Parameter Estimation: A Case Study with DESI

1️⃣ 一句话总结

这项研究表明，使用在低分辨率光谱上预训练的简单神经网络，可以有效地泛化到中分辨率光谱来估计恒星参数，而基于Transformer的模型在某些情况下有优势，但最佳方法取决于具体要预测的参数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14763

arXiv 提交日期: 2026-02-16

llm natural language processing model evaluation machine translation reasoning models structured reasoning wmt benchmark post-training

解锁大语言模型在机器翻译中的推理能力 / Unlocking Reasoning Capability on Machine Translation in Large Language Models

1️⃣ 一句话总结

这篇论文研究发现，当前大语言模型通用的‘显式推理’方法（即写出中间思考步骤）会损害机器翻译质量，并提出了一种专为翻译任务设计的‘结构化推理’框架，通过多步骤草拟、优化和选择性修订，显著提升了翻译效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.14901

arXiv 提交日期: 2026-02-16

agents medical model evaluation model selection neural processes healthcare agents specialist models benchmark

选择合适的专家：基于注意力神经过程的医疗智能体任务专家模型选择工具 / Picking the Right Specialist: Attentive Neural Process-based Selection of Task-Specialized Models as Tools for Agentic Healthcare Systems

1️⃣ 一句话总结

这篇论文提出了一种名为ToolSelect的智能选择方法，它能让医疗AI系统在面对不同任务（如疾病诊断、报告生成）时，像一位经验丰富的调度员一样，自动从众多专家模型中挑选出最适合处理当前具体问题的那一个，从而显著提升系统的整体表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.15532

1️⃣ 一句话总结

arXiv ID: 2602.15499

1️⃣ 一句话总结

arXiv ID: 2602.15481

1️⃣ 一句话总结

arXiv ID: 2602.15669

1️⃣ 一句话总结

arXiv ID: 2602.15169

1️⃣ 一句话总结

arXiv ID: 2602.14869

1️⃣ 一句话总结

arXiv ID: 2602.14970

1️⃣ 一句话总结

arXiv ID: 2602.15021

1️⃣ 一句话总结

arXiv ID: 2602.14763

1️⃣ 一句话总结

arXiv ID: 2602.14901

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.15532 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15499 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15481 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15669 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15169 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14869 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14970 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15021 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14763 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.14901 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.15532

arXiv ID: 2602.15499

arXiv ID: 2602.15481

arXiv ID: 2602.15669

arXiv ID: 2602.15169

arXiv ID: 2602.14869

arXiv ID: 2602.14970

arXiv ID: 2602.15021

arXiv ID: 2602.14763

arXiv ID: 2602.14901