arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 38 72小时内新更新论文 72h更新 127 最新: Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence 05-03

arXiv ID: 2604.13114

arXiv 提交日期: 2026-04-12

llm systems model evaluation code analysis program repair graph neural networks software engineering ai-assisted development

代码耳语者：基于大语言模型和图分析的代码异味与漏洞修复框架 / The Code Whisperer: LLM and Graph-Based AI for Smell and Vulnerability Resolution

1️⃣ 一句话总结

这篇论文提出了一个名为‘代码耳语者’的混合框架，它巧妙地将图分析（捕捉代码结构关系）与大语言模型（理解代码语义）结合起来，在一个流程中更准确地检测、解释并修复代码中的可维护性问题（如代码异味）和安全漏洞，比单独使用任何一种方法效果更好。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.10132

arXiv 提交日期: 2026-04-11

computer vision model evaluation benchmark image forensics semantic editing manipulation localization benchmark vision-language reasoning

语义篡改定位 / Semantic Manipulation Localization

1️⃣ 一句话总结

这篇论文提出了一个名为‘语义篡改定位’的新任务和对应的TRACE框架，专门用于检测图像中那些不明显但会改变图像含义的细微编辑，而不是依赖传统的篡改痕迹检测，从而在复杂的语义编辑场景中实现更准确、更完整的定位。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.10235

arXiv 提交日期: 2026-04-11

llm systems model evaluation kv cache compression agentic coding program analysis code property graph inference optimization

CodeComp：面向智能体编码的结构化KV缓存压缩 / CodeComp: Structural KV Cache Compression for Agentic Coding

1️⃣ 一句话总结

这篇论文提出了一种名为CodeComp的无需训练的KV缓存压缩框架，它通过结合静态程序分析来智能保留代码中的关键结构信息，从而在内存受限的情况下，让大语言模型在进行故障定位和代码生成等任务时，既能大幅压缩缓存占用，又能保持接近完整上下文的高准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.09879

arXiv 提交日期: 2026-04-10

computer vision model evaluation machine learning adversarial attack 3d point clouds topological vulnerability persistent homology geometric imperceptibility

Topo-ADV：生成拓扑驱动的不可察觉对抗性点云 / Topo-ADV: Generating Topology-Driven Imperceptible Adversarial Point Clouds

1️⃣ 一句话总结

这篇论文提出了一种新的攻击3D点云识别模型的方法，通过巧妙改变物体内部的拓扑结构（如空洞数量）来欺骗AI模型，同时保持物体外形几乎不变，从而揭示了AI在理解3D物体时一个此前未被发现的弱点。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08120

arXiv 提交日期: 2026-04-09

multi-modal model training model evaluation video understanding vision-language models context compression efficient inference long-form video

小型视觉语言模型：长视频理解的智能压缩器 / Small Vision-Language Models are Smart Compressors for Long Video Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为Tempo的高效框架，它利用小型视觉语言模型作为智能压缩器，能够根据用户查询意图，动态且精准地压缩长达数小时的视频内容，在极低的计算成本下实现超越大型模型的长视频理解能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.07855

arXiv 提交日期: 2026-04-09

llm theory model evaluation constrained generation inference hardness autoregressive models computational complexity conditional sampling

自回归模型条件化中的隐藏偏差 / Hidden Biases in Conditioning Autoregressive Models

1️⃣ 一句话总结

这篇论文指出，当大型语言和音乐模型被用于满足特定格式要求（如押韵、固定结构）的生成任务时，其常用的近似方法会产生隐藏的推理偏差，导致生成结果偏离理论上的真实分布，并且论文从理论上证明了进行精确的条件化生成或解码在计算上是极其困难的。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08460

arXiv 提交日期: 2026-04-09

machine learning systems model evaluation inverse problems health estimation self-supervised learning turbofan engines benchmark

基于逆问题公式化的涡扇发动机健康状态估计机器学习框架 / A Machine Learning Framework for Turbofan Health Estimation via Inverse Problem Formulation

1️⃣ 一句话总结

这篇论文提出了一个通过自监督学习从传感器数据中估计涡扇发动机部件健康状况的新框架，并创建了一个包含真实维护模式的新数据集，研究发现传统方法依然有效，但揭示了该问题的内在复杂性，需要更先进的推理策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08299

arXiv 提交日期: 2026-04-09

llm theory model evaluation reasoning chain-of-thought latent reasoning selective activation contrastive regularization

SeLaR：大语言模型中的选择性潜在推理 / SeLaR: Selective Latent Reasoning in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一种名为SeLaR的轻量级方法，通过智能地在大语言模型推理过程中切换使用确定性词和软性概率向量，解决了现有推理方法容易出错或探索不足的问题，从而在多个任务上提升了推理性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08523

arXiv 提交日期: 2026-04-09

agents benchmark model evaluation web interaction task automation live evaluation real-world agents multi-step workflows

ClawBench：AI智能体能否完成日常在线任务？ / ClawBench: Can AI Agents Complete Everyday Online Tasks?

1️⃣ 一句话总结

这篇论文提出了一个名为ClawBench的新型评估框架，它包含153个真实网站上的日常在线任务，用于测试AI智能体的实际应用能力，结果发现当前最先进的模型也只能完成其中一小部分任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08524

arXiv 提交日期: 2026-04-09

llm theory model evaluation steering vectors mechanistic interpretability activation patching refusal behavior circuit analysis

什么驱动了表征转向？关于引导拒绝行为的机制性案例研究 / What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal

1️⃣ 一句话总结

这篇论文通过研究如何用“转向向量”改变大语言模型的拒绝行为，揭示了这种技术主要通过影响模型内部注意力机制中的特定电路来发挥作用，并且发现这些向量可以被大幅精简而保持效果，为理解模型对齐技术提供了清晰的内部机制解释。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.13114

1️⃣ 一句话总结

arXiv ID: 2604.10132

1️⃣ 一句话总结

arXiv ID: 2604.10235

1️⃣ 一句话总结

arXiv ID: 2604.09879

1️⃣ 一句话总结

arXiv ID: 2604.08120

1️⃣ 一句话总结

arXiv ID: 2604.07855

1️⃣ 一句话总结

arXiv ID: 2604.08460

1️⃣ 一句话总结

arXiv ID: 2604.08299

1️⃣ 一句话总结

arXiv ID: 2604.08523

1️⃣ 一句话总结

arXiv ID: 2604.08524

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.13114 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.10132 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.10235 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.09879 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08120 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.07855 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08460 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08299 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08523 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08524 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.13114

arXiv ID: 2604.10132

arXiv ID: 2604.10235

arXiv ID: 2604.09879

arXiv ID: 2604.08120

arXiv ID: 2604.07855

arXiv ID: 2604.08460

arXiv ID: 2604.08299

arXiv ID: 2604.08523

arXiv ID: 2604.08524