arXiv最新AI论文速览速学

🔍

标签: #model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 33 72小时内新更新论文 72h更新 128 最新: SIEVES: Selective Prediction Generalizes through Visual Evidence Scoring 05-04

arXiv ID: 2512.24601

arXiv 提交日期: 2025-12-31

llm systems model evaluation long-context inference-time scaling recursive models prompt processing context window

递归语言模型 / Recursive Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为‘递归语言模型’的新方法，它能让大语言模型像编程一样，通过自我调用和分解的方式，高效处理远超其本身能力范围的超长文本，从而大幅提升长文本任务的处理效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23988

arXiv 提交日期: 2025-12-30

llm theory model evaluation reasoning interpretability unsupervised discovery sparse autoencoders latent behavior activation steering

奇妙的推理行为及其发现：推理过程的非监督式探索 / Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process

1️⃣ 一句话总结

这篇论文提出了一种名为RISE的非监督框架，通过稀疏自编码器在大语言模型的激活空间中自动发现并分离出可解释的推理行为（如反思、回溯），并能对这些行为进行针对性干预以可控地引导模型的推理过程，而无需重新训练模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23628

arXiv 提交日期: 2025-12-29

computer vision model training model evaluation 3d shape generation memorization analysis diffusion models data leakage generative evaluation

三维形状生成中的记忆化现象：一项实证研究 / Memorization in 3D Shape Generation: An Empirical Study

1️⃣ 一句话总结

这篇论文通过设计一个评估框架，量化了3D生成模型对训练数据的记忆程度，并发现数据模态、多样性以及模型设计（如引导强度和增强技术）都会影响记忆化，进而提出了在不降低生成质量的前提下减少记忆化的有效策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23573

arXiv 提交日期: 2025-12-29

multi-modal model training model evaluation safety out-of-distribution detection reinforcement learning vision-language model content moderation

ProGuard：迈向主动式多模态安全防护 / ProGuard: Towards Proactive Multimodal Safeguard

1️⃣ 一句话总结

这篇论文提出了一个名为ProGuard的主动式多模态安全防护系统，它通过强化学习训练，无需调整现有模型就能识别并描述前所未见的安全风险，在风险检测和描述能力上相比传统被动方法有显著提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.23646

arXiv 提交日期: 2025-12-29

multi-modal agents model evaluation audio-visual understanding active perception tool orchestration benchmark multimodal alignment

OmniAgent：用于全模态音视频理解的音频引导主动感知智能体 / OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为OmniAgent的智能体，它能够主动利用音频线索来动态调用工具，从而更精细地理解和分析音视频内容，在多个基准测试中取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22877

arXiv 提交日期: 2025-12-28

model evaluation benchmark multi-modal concept erasure diffusion models multimodal evaluation robustness text-to-image

M-ErasureBench：一个用于扩散模型概念擦除的综合多模态评估基准 / M-ErasureBench: A Comprehensive Multimodal Evaluation Benchmark for Concept Erasure in Diffusion Models

1️⃣ 一句话总结

这篇论文提出了首个超越文本提示的多模态概念擦除评估基准M-ErasureBench，并设计了一个名为IRECE的即插即用模块，能有效提升扩散模型在图像编辑等真实场景下抵御通过嵌入或潜在代码重新生成有害或受保护概念的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22469

arXiv 提交日期: 2025-12-27

natural language processing systems model evaluation software engineering issue localization causal reasoning graph neural networks code analysis

GraphLocator：基于图引导因果推理的软件问题定位方法 / GraphLocator: Graph-guided Causal Reasoning for Issue Localization

1️⃣ 一句话总结

这篇论文提出了一种名为GraphLocator的新方法，它通过构建因果问题图来模拟软件问题背后的逻辑关系，从而更准确地自动定位需要修改的源代码位置，有效解决了自然语言描述与代码实现之间的语义鸿沟问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.21815

arXiv 提交日期: 2025-12-26

multi-modal model evaluation machine learning adversarial attacks vision-language models entropy model safety autoregressive generation

少数关键令牌决定成败：基于熵的视觉-语言模型攻击方法 / Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models

1️⃣ 一句话总结

这篇论文发现，视觉-语言模型在生成文本时，只有大约20%的关键位置（高熵令牌）对输出结果起决定性作用，通过集中攻击这些位置，就能用很小的代价让模型产生大量有害内容，从而揭示了现有模型安全机制的重大漏洞。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22334

arXiv 提交日期: 2025-12-26

benchmark model evaluation multi-modal scientific intelligence evaluation toolkit multimodal reasoning science domains ai4science

SciEvalKit：一个用于科学通用智能的开源评估工具包 / SciEvalKit: An Open-source Evaluation Toolkit for Scientific General Intelligence

1️⃣ 一句话总结

这篇论文介绍了一个名为SciEvalKit的开源工具包，它专门用来评估AI模型在多个科学领域的综合能力，比如科学推理、代码生成和知识理解，旨在为科学AI的发展提供一个标准化且可扩展的评测平台。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.22322

arXiv 提交日期: 2025-12-26

agents llm model evaluation self-verification reinforcement learning gui agents evidence seeking llm-as-a-judge

SmartSnap：面向自验证智能体的主动证据寻求范式 / SmartSnap: Proactive Evidence Seeking for Self-Verifying Agents

1️⃣ 一句话总结

这篇论文提出了一种名为SmartSnap的新方法，让AI智能体在执行复杂任务时能主动收集少量关键证据来证明自己完成了任务，从而大幅降低了验证成本并提升了可靠性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.24601

1️⃣ 一句话总结

arXiv ID: 2512.23988

1️⃣ 一句话总结

arXiv ID: 2512.23628

1️⃣ 一句话总结

arXiv ID: 2512.23573

1️⃣ 一句话总结

arXiv ID: 2512.23646

1️⃣ 一句话总结

arXiv ID: 2512.22877

1️⃣ 一句话总结

arXiv ID: 2512.22469

1️⃣ 一句话总结

arXiv ID: 2512.21815

1️⃣ 一句话总结

arXiv ID: 2512.22334

1️⃣ 一句话总结

arXiv ID: 2512.22322

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.24601 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23988 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23628 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23573 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.23646 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22877 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22469 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.21815 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22334 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.22322 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.24601

arXiv ID: 2512.23988

arXiv ID: 2512.23628

arXiv ID: 2512.23573

arXiv ID: 2512.23646

arXiv ID: 2512.22877

arXiv ID: 2512.22469

arXiv ID: 2512.21815

arXiv ID: 2512.22334

arXiv ID: 2512.22322