arXiv最新AI论文速览速学

🔍

标签: #model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 124 最新: GeoFlow: Real-Time Fine-Grained Cross-View Geolocalization via Iterative Flow Prediction 03-24

arXiv ID: 2602.15676

arXiv 提交日期: 2026-02-17

machine learning theory model evaluation neural forecasting representational alignment latent geometry dynamical systems model comparison

神经预测器的相对几何：连接学习到的潜在几何中的准确性与对齐性 / Relative Geometry of Neural Forecasters: Linking Accuracy and Alignment in Learned Latent Geometry

1️⃣ 一句话总结

这篇论文通过一种新的几何分析方法发现，不同神经网络模型在预测复杂动态系统时，其内部表示结构存在清晰的家族相似性，但高预测精度并不总是与这种内部结构的高度一致性直接挂钩。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15757

arXiv 提交日期: 2026-02-17

natural language processing multi-modal model evaluation sexism detection multimodal dataset fine-grained classification social media analysis llm evaluation

超越二元分类：检测社交媒体视频中的细粒度性别歧视 / Beyond Binary Classification: Detecting Fine-Grained Sexism in Social Media Videos

1️⃣ 一句话总结

这篇论文通过构建一个包含细粒度标注的西班牙语多模态数据集，并评估多种大语言模型，发现多模态模型能有效识别复杂的性别歧视内容，但在处理视觉信息中的多重歧视类型时仍有困难。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15332

arXiv 提交日期: 2026-02-17

llm model evaluation theory interpretability reasoning analysis causal attribution trajectory analysis language models

方向性推理轨迹变化（DRTC）：识别推理模型中的关键轨迹段 / Directional Reasoning Trajectory Change (DRTC): Identifying Critical Trace Segments in Reasoning Models

1️⃣ 一句话总结

这篇论文提出了一种名为DRTC的新方法，它通过分析模型在推理过程中不确定性和概率分布的变化，来精准定位并量化是哪些前文信息真正‘扭转’了模型的推理方向，从而帮助我们理解大语言模型是如何一步步思考的。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15769

arXiv 提交日期: 2026-02-17

llm multi-modal model evaluation multimodal llms table attribution visual reasoning evidence citation structured data

ViTaB-A：评估多模态大语言模型在视觉表格归因任务上的表现 / ViTaB-A: Evaluating Multimodal Large Language Models on Visual Table Attribution

1️⃣ 一句话总结

这篇论文研究发现，当前的多模态大语言模型在回答基于表格的问题时，虽然能给出正确答案，但很难准确地指出答案具体来源于表格中的哪些行和列，这使得它们在需要透明度和可追溯性的应用中并不可靠。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15778

arXiv 提交日期: 2026-02-17

llm model evaluation natural language processing text generation evaluation llm-as-a-judge perplexity-based metric human alignment computational efficiency

-PLUIE：一种基于大语言模型且可个性化定制的改进评估指标* / -PLUIE: Personalisable metric with Llm Used for Improved Evaluation*

1️⃣ 一句话总结

这篇论文提出了一种名为*-PLUIE的新型评估方法，它通过改进现有技术，在保持低成本的同时，能更准确地评估AI生成文本的质量，并且可以根据不同任务进行个性化调整。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15532

arXiv 提交日期: 2026-02-17

llm model evaluation benchmark construct validity latent factor models scaling laws capability measurement performance prediction

量化大语言模型评估中的构念效度 / Quantifying construct validity in large language model evaluations

1️⃣ 一句话总结

这篇论文提出了一种新的‘结构化能力模型’，通过结合潜在因子模型和缩放定律的优点，从大量基准测试结果中提取出可解释且可泛化的模型能力，从而更准确地评估大语言模型的真实水平，避免仅依赖有缺陷的基准分数。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15499

arXiv 提交日期: 2026-02-17

theory model evaluation machine learning lipschitz constant neural networks robustness guarantees piecewise linear exact computation

ExLipBaB：面向分段线性神经网络的确切利普希茨常数计算 / ExLipBaB: Exact Lipschitz Constant Computation for Piecewise Linear Neural Networks

1️⃣ 一句话总结

这篇论文提出了一种名为ExLipBaB的新算法，能够精确计算使用各种分段线性激活函数（如ReLU、LeakyReLU、GroupSort等）的神经网络在任意p-范数下的利普希茨常数，为评估模型鲁棒性、可逆网络设计等应用提供了精确的基准工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15481

arXiv 提交日期: 2026-02-17

llm model evaluation theory llm-as-a-judge budget allocation multi-armed bandit variance-adaptive automated assessment

预算约束下的LLM即法官 / LLM-as-Judge on a Budget

1️⃣ 一句话总结

这篇论文提出了一种在有限计算资源下，通过动态分配查询次数来更准确评估大语言模型性能的智能方法，其核心是优先将资源用于不确定性最高的评估项，从而显著降低整体评估误差。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15669

arXiv 提交日期: 2026-02-17

llm model training model evaluation personality control activation vectors inference-time control vector algebra behavioral control

PERSONA：基于激活向量代数的动态组合式推理时人格控制 / PERSONA: Dynamic and Compositional Inference-Time Personality Control via Activation Vector Algebra

1️⃣ 一句话总结

这篇论文提出了一个名为PERSONA的新方法，它无需额外训练，仅通过在模型内部激活空间中直接操作代表不同人格特质的向量，就能像精细调优一样动态、灵活地控制大语言模型表现出特定或组合的人格特征。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15169

arXiv 提交日期: 2026-02-16

machine learning theory model evaluation symbolic regression scattering amplitudes klt relations feature selection gauge theory

从数据中学习S矩阵：通过符号回归从规范理论重新发现引力 / Learning the S-matrix from data: Rediscovering gravity from gauge theory via symbolic regression

1️⃣ 一句话总结

这篇论文展示了如何利用现代机器学习方法，仅通过数值数据就能自动重新发现散射振幅中的关键数学关系，特别是从规范理论推导出引力理论的核心公式，为探索物理理论的深层结构提供了一种数据驱动的新途径。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.15676

1️⃣ 一句话总结

arXiv ID: 2602.15757

1️⃣ 一句话总结

arXiv ID: 2602.15332

1️⃣ 一句话总结

arXiv ID: 2602.15769

1️⃣ 一句话总结

arXiv ID: 2602.15778

1️⃣ 一句话总结

arXiv ID: 2602.15532

1️⃣ 一句话总结

arXiv ID: 2602.15499

1️⃣ 一句话总结

arXiv ID: 2602.15481

1️⃣ 一句话总结

arXiv ID: 2602.15669

1️⃣ 一句话总结

arXiv ID: 2602.15169

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.15676 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15757 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15332 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15769 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15778 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15532 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15499 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15481 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15669 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15169 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.15676

arXiv ID: 2602.15757

arXiv ID: 2602.15332

arXiv ID: 2602.15769

arXiv ID: 2602.15778

arXiv ID: 2602.15532

arXiv ID: 2602.15499

arXiv ID: 2602.15481

arXiv ID: 2602.15669

arXiv ID: 2602.15169