arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 71 72小时内新更新论文 72h更新 160 最新: SIEVES: Selective Prediction Generalizes through Visual Evidence Scoring 05-04

arXiv ID: 2604.00799

arXiv 提交日期: 2026-04-01

multi-modal model evaluation computer vision spatial reasoning 3d consistency multimodal llms evaluation benchmark visual understanding

多模态大语言模型无法识别空间不一致性 / Multimodal Language Models Cannot Spot Spatial Inconsistencies

1️⃣ 一句话总结

这篇论文通过一项新任务发现，当前先进的多模态大语言模型在识别同一场景不同视角下物体运动的空间不一致性时，表现远不如人类，揭示了模型对三维几何结构的理解仍然脆弱且不完整。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00890

arXiv 提交日期: 2026-04-01

llm model evaluation natural language processing geometric reasoning chain-of-thought multi-step reasoning self-verification mathematical reasoning

超越符号求解：用于大语言模型几何推理的多思维链投票方法 / Beyond Symbolic Solving: Multi Chain-of-Thought Voting for Geometric Reasoning in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为MARS-GPS的新方法，通过让大语言模型并行生成多个推理步骤并利用代码执行进行验证，再通过投票机制选出最佳答案，从而显著提升了解决几何问题的准确率。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00820

arXiv 提交日期: 2026-04-01

multi-modal benchmark model evaluation remote sensing vision-language models continual learning catastrophic forgetting benchmarking

面向遥感领域的持续视觉-语言学习：基准测试与分析 / Continual Vision-Language Learning for Remote Sensing: Benchmarking and Analysis

1️⃣ 一句话总结

这篇论文针对遥感视觉-语言模型难以持续学习新任务和新数据的问题，创建了一个名为CLeaRS的专用基准测试集，并通过实验发现现有模型和方法在持续学习时普遍存在严重的‘灾难性遗忘’现象，从而强调了开发针对性解决方案的必要性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.29616

arXiv 提交日期: 2026-03-31

video model evaluation benchmark video understanding evaluation suite diagnostic analysis spatio-temporal reasoning benchmark critique

Video-Oasis：重新思考视频理解的评估 / Video-Oasis: Rethinking Evaluation of Video Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为Video-Oasis的诊断工具，通过系统分析发现现有视频理解评测基准存在严重缺陷——超过一半的测试样本无需观看视频就能答对，而顶尖模型在真正需要时空理解的样本上表现接近随机猜测，从而为未来构建更可靠的评测标准和模型设计提供了实用指导。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.29631

arXiv 提交日期: 2026-03-31

computer vision systems model evaluation edge computing cross-modal retrieval novelty filtering video streams efficient inference

存储更少，发现更多：新颖性过滤如何提升边缘摄像头的跨模态检索性能 / Storing Less, Finding More: How Novelty Filtering Improves Cross-Modal Retrieval on Edge Cameras

1️⃣ 一句话总结

这篇论文提出了一种用于边缘摄像头的流式检索架构，通过在设备端过滤掉语义重复的视频帧来提升跨模态检索效率，使得使用小型编码器也能达到与大型模型相当的检索精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.29185

arXiv 提交日期: 2026-03-31

computer vision systems model evaluation visual relocalization gaussian splatting pose estimation view synthesis feature matching

基于特征高斯溅射与最近邻视图合成的分层视觉重定位 / Hierarchical Visual Relocalization with Nearest View Synthesis from Feature Gaussian Splatting

1️⃣ 一句话总结

这篇论文提出了一个名为SplatHLoc的新方法，它通过一种特殊的3D场景建模技术来合成虚拟视角，并结合两种特征匹配策略的优势，从而更准确、更鲁棒地估计相机在已知场景中的位置和朝向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00281

arXiv 提交日期: 2026-03-31

llm systems model evaluation human-in-the-loop education objective drift control theory curriculum design

人机协同控制LLM辅助计算机科学教育中的目标漂移 / Human-in-the-Loop Control of Objective Drift in LLM-Assisted Computer Science Education

1️⃣ 一句话总结

这篇论文提出了一种人机协同的教学方法，通过训练学生在使用AI编程工具前明确任务目标和验收标准，来有效控制AI输出偏离原定目标的‘漂移’问题，并设计了包含故意引入漂移的实验室课程来培养学生的诊断和纠错能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.00310

arXiv 提交日期: 2026-03-31

multi-modal llm model evaluation safety alignment conditional decoding adversarial robustness multimodal attacks internal representations

基于条件解码的鲁棒多模态安全防护 / Robust Multimodal Safety via Conditional Decoding

1️⃣ 一句话总结

这篇论文提出了一种名为CASA的简单条件解码策略，通过让多模态大模型在生成回复前先预测一个安全标记，有效抵御了利用跨模态交互发起的恶意攻击，在多种测试中将攻击成功率平均降低了97%以上，同时不影响正常任务的处理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.29678

arXiv 提交日期: 2026-03-31

agents systems model evaluation agent traces conversation analysis structured views context engineering compiler

面向视图的智能体轨迹分析对话编译器 / View-oriented Conversation Compiler for Agent Trace Analysis

1️⃣ 一句话总结

这篇论文提出了一个名为VCC的编译器，它能将结构复杂的智能体对话日志转换成多种清晰、结构化的视图，从而显著提升分析质量、降低计算成本，并证明消息格式是智能体系统底层工程的关键基础设施。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.29252

arXiv 提交日期: 2026-03-31

multi-modal model evaluation systems long video understanding visual memory kv cache training-free streaming video

通过视觉记忆机制扩展多模态大语言模型的长视频理解能力 / Scaling the Long Video Understanding of Multimodal Large Language Models via Visual Memory Mechanism

1️⃣ 一句话总结

这篇论文提出了一种名为FlexMem的无训练新方法，通过模拟人类观看视频时不断回忆相关片段的视觉记忆机制，使多模态大语言模型能够理解超长甚至无限长度的视频内容，并在单张消费级显卡上高效处理超过1000帧的视频。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.00799

1️⃣ 一句话总结

arXiv ID: 2604.00890

1️⃣ 一句话总结

arXiv ID: 2604.00820

1️⃣ 一句话总结

arXiv ID: 2603.29616

1️⃣ 一句话总结

arXiv ID: 2603.29631

1️⃣ 一句话总结

arXiv ID: 2603.29185

1️⃣ 一句话总结

arXiv ID: 2604.00281

1️⃣ 一句话总结

arXiv ID: 2604.00310

1️⃣ 一句话总结

arXiv ID: 2603.29678

1️⃣ 一句话总结

arXiv ID: 2603.29252

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.00799 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00890 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00820 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.29616 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.29631 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.29185 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00281 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.00310 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.29678 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.29252 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.00799

arXiv ID: 2604.00890

arXiv ID: 2604.00820

arXiv ID: 2603.29616

arXiv ID: 2603.29631

arXiv ID: 2603.29185

arXiv ID: 2604.00281

arXiv ID: 2604.00310

arXiv ID: 2603.29678

arXiv ID: 2603.29252