arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: VorTEX: Various overlap ratio for Target speech EXtraction 03-18

arXiv ID: 2510.13928

arXiv 提交日期: 2025-10-15

llm model training model evaluation data quality continual pretraining cognitive decline benchmark safety

大语言模型也会得'脑退化'！ / LLMs Can Get "Brain Rot"!

1️⃣ 一句话总结

这项研究证实，持续用低质量的网络文本训练大语言模型会导致其推理能力、长文本理解、安全性等多方面认知功能显著下降，且这种损害难以通过后续优化完全恢复，提醒我们应将数据质量视为模型训练期的安全问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.13251

arXiv 提交日期: 2025-10-15

natural language processing computer vision model evaluation video large language models mechanistic interpretability information flow temporal reasoning attention analysis

绘制信息流：揭示视频大语言模型中隐藏的信息传递路径 / Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

1️⃣ 一句话总结

这项研究通过分析视频大语言模型内部工作机制，揭示了其进行时间推理时遵循的固定信息流动模式，并发现模型在保留核心性能的同时可以大幅简化注意力连接。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.12487

arXiv 提交日期: 2025-10-14

llm benchmark model evaluation code diff evaluation benchmark diff representation code editing software engineering

Diff-XYZ：一个用于评估代码差异理解的基准 / Diff-XYZ: A Benchmark for Evaluating Diff Understanding

1️⃣ 一句话总结

这篇论文提出了一个名为Diff-XYZ的基准测试，用于评估大型语言模型理解和处理代码变更的能力，并通过实验发现不同格式的代码差异表示适用于不同规模和任务的模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11713

arXiv 提交日期: 2025-10-13

llm model evaluation agents reasoning models interruptibility dynamic evaluation robustness failure modes

大型推理模型是否可被打断？ / Are Large Reasoning Models Interruptible?

1️⃣ 一句话总结

这篇论文研究发现，在需要长时间推理的任务中，当前顶尖的大型推理模型在遇到中途打断或信息更新时表现会大幅下降，揭示了传统静态评估方法高估了模型在实际动态环境中的鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11647

arXiv 提交日期: 2025-10-13

video generation benchmark model evaluation instruction-guided video editing evaluation framework multimodal assessment video quality llm-based evaluation

IVEBench：面向指令引导视频编辑评估的现代基准套件 / IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

1️⃣ 一句话总结

这篇论文提出了一个名为IVEBench的新基准套件，通过包含多样化视频数据、广泛编辑任务和三维评估协议，解决了当前指令引导视频编辑领域缺乏全面评估标准的问题，能够更有效地衡量不同编辑方法的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11512

arXiv 提交日期: 2025-10-13

model evaluation video generation aigc intuitive physics video diffusion evaluation benchmark likelihood preference physics understanding

LikePhys：通过似然偏好评估视频扩散模型中的直觉物理理解 / LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

1️⃣ 一句话总结

这项研究提出了一种无需训练的方法LikePhys，通过比较物理合理与不合理视频的生成概率来评估视频扩散模型对物理规律的理解能力，发现模型规模越大对物理世界的模拟越准确，但在复杂动态场景中仍有不足。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11391

arXiv 提交日期: 2025-10-13

agents model evaluation natural language processing document generation reward model professional documents structure evaluation style evaluation

DocReward：一种用于文档结构与风格优化的文档奖励模型 / DocReward: A Document Reward Model for Structuring and Stylizing

1️⃣ 一句话总结

这篇论文提出了DocReward模型，它能专门评估文档的结构和排版美观度，帮助AI自动生成更符合人类偏好的专业文档，其效果优于GPT-4o和GPT-5。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.11026

arXiv 提交日期: 2025-10-13

multi-modal model evaluation benchmark image generation reasoning evaluation understanding-generation alignment multimodal consistency text-to-image

GIR-Bench：用于推理图像生成的通用基准 / GIR-Bench: Versatile Benchmark for Generating Images with Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为GIR-Bench的基准测试，用于系统评估多模态模型在图像理解与生成之间的一致性、逻辑推理驱动的图像生成以及多步骤图像编辑能力，揭示了当前模型在理解与生成之间仍存在差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.10868

arXiv 提交日期: 2025-10-13

computer vision model training model evaluation human mesh recovery transformer optimization token merging layer merging diffusion decoding

FastHMR：通过令牌与层合并及扩散解码加速人体网格恢复 / FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding

1️⃣ 一句话总结

这篇论文提出了一种名为FastHMR的新方法，通过智能合并冗余计算层和背景信息令牌，并结合扩散模型进行精细解码，在显著提升3D人体姿态恢复速度的同时，还能略微提高预测精度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.10689

arXiv 提交日期: 2025-10-12

multi-modal benchmark model evaluation audio-visual understanding multimodal reasoning evaluation benchmark video comprehension modality complementarity

OmniVideoBench：面向全能多模态大语言模型的视听理解评估 / OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

1️⃣ 一句话总结

这篇论文提出了一个名为OmniVideoBench的大规模评估基准，专门用于全面测试多模态大语言模型在视频中结合声音和画面进行协同推理的能力，发现现有模型与人类水平仍有较大差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2510.13928

1️⃣ 一句话总结

arXiv ID: 2510.13251

1️⃣ 一句话总结

arXiv ID: 2510.12487

1️⃣ 一句话总结

arXiv ID: 2510.11713

1️⃣ 一句话总结

arXiv ID: 2510.11647

1️⃣ 一句话总结

arXiv ID: 2510.11512

1️⃣ 一句话总结

arXiv ID: 2510.11391

1️⃣ 一句话总结

arXiv ID: 2510.11026

1️⃣ 一句话总结

arXiv ID: 2510.10868

1️⃣ 一句话总结

arXiv ID: 2510.10689

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2510.13928 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.13251 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.12487 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11713 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11647 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11512 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11391 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.11026 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.10868 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.10689 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2510.13928

arXiv ID: 2510.13251

arXiv ID: 2510.12487

arXiv ID: 2510.11713

arXiv ID: 2510.11647

arXiv ID: 2510.11512

arXiv ID: 2510.11391

arXiv ID: 2510.11026

arXiv ID: 2510.10868

arXiv ID: 2510.10689