arXiv最新AI论文速览速学

🔍

model evaluation ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 74 72小时内新更新论文 72h更新 162 最新: Evasive Intelligence: Lessons from Malware Analysis for Evaluating AI Agents 03-23

arXiv ID: 2508.19982

arXiv 提交日期: 2025-08-27

natural language processing model training model evaluation diffusion language models fast decoding early convergence inference acceleration prophet method

扩散语言模型在解码前已知答案 / Diffusion Language Models Know the Answer Before Decoding

1️⃣ 一句话总结

这项研究发现扩散语言模型在生成过程中很早就已确定正确答案，并提出了一种无需训练的动态解码方法，可在保持质量的同时将推理速度提升最高3.4倍。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.19229

arXiv 提交日期: 2025-08-26

llm model evaluation reinforcement learning reasoning evaluation process supervision generative judges meta-reasoning stepwise feedback

StepWiser：用于更明智推理的逐步生成式评判器 / StepWiser: Stepwise Generative Judges for Wiser Reasoning

1️⃣ 一句话总结

这篇论文提出了一种名为StepWiser的新型AI评判系统，它通过生成解释性思考来评估多步推理过程中的每一步逻辑，从而比现有方法更准确地指导AI模型进行复杂问题的解决和优化。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.19026

arXiv 提交日期: 2025-08-26

video multi-modal model evaluation video question answering cognitive reasoning dataset creation agentic enhancement movie understanding

MovieCORE：电影中的认知推理 / MovieCORE: COgnitive REasoning in Movies

1️⃣ 一句话总结

这篇论文提出了一个名为MovieCORE的新型视频问答数据集，专门用于测试AI对电影内容深层认知理解的能力，并通过创新的智能增强方法显著提升了现有模型的推理表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.18773

arXiv 提交日期: 2025-08-26

llm model training model evaluation reasoning control computational efficiency reinforcement learning chain-of-thought budget-aware training

ThinkDial：一种控制大语言模型推理计算量的开放方案 / ThinkDial: An Open Recipe for Controlling Reasoning Effort in Large Language Models

1️⃣ 一句话总结

这篇论文提出了一个名为ThinkDial的开放框架，能让大语言模型像切换档位一样在三种推理模式间自由切换，从而在保持性能的同时显著降低计算成本。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.18192

arXiv 提交日期: 2025-08-25

llm theory model evaluation module communities cognitive patterns network analysis model interpretability fine-tuning strategies

通过模块社群揭示大型语言模型的认知模式 / Unraveling the cognitive patterns of Large Language Models through module communities

1️⃣ 一句话总结

这项研究通过构建一个网络分析框架，发现大型语言模型内部存在独特的模块社群，其技能获取模式类似于鸟类和小型哺乳动物大脑的分布式认知结构，并指出有效的模型优化应利用动态跨区域交互而非固定模块干预。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.18106

arXiv 提交日期: 2025-08-25

llm benchmark model evaluation code generation security evaluation software engineering repository-level testing ai-generated code

A.S.E：一个用于评估AI生成代码安全性的仓库级基准 / A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code

1️⃣ 一句话总结

这篇论文提出了一个名为A.S.E的仓库级基准测试，用于评估AI生成代码的安全性，发现当前大语言模型在真实编程场景中仍难以生成安全代码，且代码复杂度增加时模型表现会下降。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.17450

arXiv 提交日期: 2025-08-24

llm model evaluation model training persuasion dynamics safety alignment dialogue robustness dpo training stance change

大语言模型中的说服动态：基于DuET-PD框架探究知识与安全维度的鲁棒性与适应性 / Persuasion Dynamics in LLMs: Investigating Robustness and Adaptability in Knowledge and Safety with DuET-PD

1️⃣ 一句话总结

本研究提出DuET-PD评估框架，揭示大语言模型在对话中易受误导信息影响且难以接受正确修正的问题，并通过新型训练方法显著提升了模型对错误信息的抵抗力和对正确信息的接受度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2508.16697

arXiv 提交日期: 2025-08-22

llm natural language processing model evaluation hallucination mitigation query rewriting contextual bandits online decision making reward modeling

QueryBandits：一种基于上下文多臂老虎机的查询重写框架，用于主动减少大语言模型的幻觉生成 / QueryBandits for Hallucination Mitigation: Exploiting Semantic Features for No-Regret Rewriting

1️⃣ 一句话总结

本文提出了QueryBandits框架，它将查询重写建模为一个在线决策问题，利用查询的语义特征，通过上下文多臂老虎机方法动态选择最佳重写策略，以主动减少大语言模型（LLM）的幻觉生成，并在多个问答基准上显著优于静态重写和无重写基线。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2508.19982

1️⃣ 一句话总结

arXiv ID: 2508.19229

1️⃣ 一句话总结

arXiv ID: 2508.19026

1️⃣ 一句话总结

arXiv ID: 2508.18773

1️⃣ 一句话总结

arXiv ID: 2508.18192

1️⃣ 一句话总结

arXiv ID: 2508.18106

1️⃣ 一句话总结

arXiv ID: 2508.17450

1️⃣ 一句话总结

arXiv ID: 2508.16697

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2508.19982 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.19229 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.19026 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.18773 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.18192 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.18106 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.17450 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2508.16697 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2508.19982

arXiv ID: 2508.19229

arXiv ID: 2508.19026

arXiv ID: 2508.18773

arXiv ID: 2508.18192

arXiv ID: 2508.18106

arXiv ID: 2508.17450

arXiv ID: 2508.16697