arXiv最新AI论文速览速学

🔍

标签: #model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 215 最新: Transformers Learn Robust In-Context Regression under Distributional Uncertainty 03-20

arXiv ID: 2602.21479

arXiv 提交日期: 2026-02-25

machine learning model evaluation systems sequential hypothesis testing multi-stream auditing test martingales statistical testing anomaly detection

多流审计的全局序贯检验 / Global Sequential Testing for Multi-Stream Auditing

1️⃣ 一句话总结

这篇论文提出了一种新的序贯检验方法，用于快速监测多个数据流中的异常，相比传统方法，它在不同异常模式下都能更快地发现问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21585

arXiv 提交日期: 2026-02-25

llm model evaluation agents test-time optimization evolutionary algorithm pairwise preference self-improvement bradley-terry model

Duel-Evolve：基于大语言模型自我偏好的无奖励测试时优化方法 / Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

1️⃣ 一句话总结

这篇论文提出了一种名为Duel-Evolve的新方法，它让大语言模型在测试时通过比较自己生成的多个候选答案的优劣来迭代优化输出，无需依赖外部评分或奖励模型，就能在数学和代码生成等任务上显著提升性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21933

arXiv 提交日期: 2026-02-25

natural language processing llm model evaluation sarcasm detection code-mixed text hinglish fine-tuning low-resource nlp

小胜大：比较大语言模型与领域微调模型在混合印地-英语文本中的讽刺检测能力 / Small Wins Big: Comparing Large Language Models and Domain Fine-Tuned Models for Sarcasm Detection in Code-Mixed Hinglish Text

1️⃣ 一句话总结

这项研究发现，在资源有限的混合印地-英语文本讽刺检测任务中，经过针对性微调的小型模型（DistilBERT）表现优于多种通用大语言模型，表明特定领域的精细调整比模型规模本身更为关键。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21835

arXiv 提交日期: 2026-02-25

benchmark multi-modal model evaluation video foundation models unified evaluation video generation video understanding agentic evaluation

UniVBench：面向视频基础模型的统一评估 / UniVBench: Towards Unified Evaluation for Video Foundation Models

1️⃣ 一句话总结

这篇论文提出了一个名为UniVBench的统一评估基准，它首次将视频理解、生成、编辑和重建四大核心能力整合到一个框架中进行综合测评，并引入了一个标准化的自动评估系统，旨在更全面、公平地衡量新一代视频基础模型的真实水平。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22474

arXiv 提交日期: 2026-02-25

robotics agents model evaluation policy steering uncertainty calibration conformal prediction vision-language models continual learning

何时行动、询问或学习：基于不确定性的策略引导 / When to Act, Ask, or Learn: Uncertainty-Aware Policy Steering

1️⃣ 一句话总结

这篇论文提出了一个名为UPS的智能机器人决策框架，它能够识别任务指令的模糊性和自身执行能力的不确定性，从而自主选择是执行动作、向人类询问澄清，还是请求干预学习，以此减少对人工反馈的依赖并提升执行可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22115

arXiv 提交日期: 2026-02-25

machine learning theory model evaluation neural network interpretability logic-based explanations domain slicing explanation efficiency scalability

切片与解释：基于领域切片的神经网络逻辑解释方法 / Slice and Explain: Logic-Based Explanations for Neural Networks through Domain Slicing

1️⃣ 一句话总结

这篇论文提出了一种利用‘领域切片’技术来加速神经网络逻辑解释生成的新方法，能在保证解释正确性的前提下，将解释生成时间减少高达40%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.22438

arXiv 提交日期: 2026-02-25

natural language processing systems model evaluation fairness recommender systems peer review bias mitigation algorithmic fairness

从偏见到平衡：面向公平同行评审的公平感知论文推荐 / From Bias to Balance: Fairness-Aware Paper Recommendation for Equitable Peer Review

1️⃣ 一句话总结

这篇论文提出了一种名为Fair-PaperRec的公平感知推荐系统，通过在推荐模型中引入公平性约束，能够在评审后显著增加代表性不足群体的论文入选率，同时基本保持整体推荐质量不变，为解决学术评审中的系统性偏见提供了一个实用框架。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21497

arXiv 提交日期: 2026-02-25

llm multi-modal model evaluation multimodal reasoning visual hallucination chain-of-thought training-free benchmark

看见它，说出它，搞定它：一种用于大型视觉语言模型视觉基础多模态推理的免训练迭代框架 / See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

1️⃣ 一句话总结

这篇论文提出了一种无需额外训练、即插即用的轻量级方法，通过让大型视觉语言模型在推理的每一步都严格依据图像证据来生成回答，有效解决了多模态推理中视觉幻觉传播导致答案错误的问题，显著提升了多个基准测试的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21959

arXiv 提交日期: 2026-02-25

systems machine learning model evaluation fuel consumption maritime transport optimization explainable ai data fusion

海运船舶燃油消耗的估计与优化：综述、挑战与未来方向 / Estimation and Optimization of Ship Fuel Consumption in Maritime: Review, Challenges and Future Directions

1️⃣ 一句话总结

这篇论文系统梳理了海运船舶燃油消耗的预测与优化方法，首次将预测模型分为物理模型、机器学习模型和混合模型三类，并强调了数据融合与可解释人工智能的重要性，同时指出了数据质量、实时优化等关键挑战及未来研究方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.21698

arXiv 提交日期: 2026-02-25

multi-modal model evaluation aigc e-commerce posters quality assessment chinese content chain-of-thought benchmark

E-comIQ-ZH：一个用于电商海报细粒度评估的、符合人类判断的数据集与基准框架 / E-comIQ-ZH: A Human-Aligned Dataset and Benchmark for Fine-Grained Evaluation of E-commerce Posters with Chain-of-Thought

1️⃣ 一句话总结

这篇论文针对中文电商海报质量缺乏有效自动化评估工具的问题，创建了一个包含多维评分和专家推理说明的大规模数据集，并基于此训练了一个能像人类专家一样评判海报质量的专用模型，为电商海报生成提供了首个可扩展的自动化评估基准。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2602.21479

1️⃣ 一句话总结

arXiv ID: 2602.21585

1️⃣ 一句话总结

arXiv ID: 2602.21933

1️⃣ 一句话总结

arXiv ID: 2602.21835

1️⃣ 一句话总结

arXiv ID: 2602.22474

1️⃣ 一句话总结

arXiv ID: 2602.22115

1️⃣ 一句话总结

arXiv ID: 2602.22438

1️⃣ 一句话总结

arXiv ID: 2602.21497

1️⃣ 一句话总结

arXiv ID: 2602.21959

1️⃣ 一句话总结

arXiv ID: 2602.21698

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2602.21479 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21585 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21933 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21835 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22474 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22115 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.22438 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21497 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21959 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.21698 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2602.21479

arXiv ID: 2602.21585

arXiv ID: 2602.21933

arXiv ID: 2602.21835

arXiv ID: 2602.22474

arXiv ID: 2602.22115

arXiv ID: 2602.22438

arXiv ID: 2602.21497

arXiv ID: 2602.21959

arXiv ID: 2602.21698