arXiv ID:
2510.11713
大型推理模型是否可被打断? / Are Large Reasoning Models Interruptible?
1️⃣ 一句话总结
这篇论文研究发现,在需要长时间推理的任务中,当前顶尖的大型推理模型在遇到中途打断或信息更新时表现会大幅下降,揭示了传统静态评估方法高估了模型在实际动态环境中的鲁棒性。
大型推理模型是否可被打断? / Are Large Reasoning Models Interruptible?
这篇论文研究发现,在需要长时间推理的任务中,当前顶尖的大型推理模型在遇到中途打断或信息更新时表现会大幅下降,揭示了传统静态评估方法高估了模型在实际动态环境中的鲁棒性。
IVEBench:面向指令引导视频编辑评估的现代基准套件 / IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment
这篇论文提出了一个名为IVEBench的新基准套件,通过包含多样化视频数据、广泛编辑任务和三维评估协议,解决了当前指令引导视频编辑领域缺乏全面评估标准的问题,能够更有效地衡量不同编辑方法的性能。
LikePhys:通过似然偏好评估视频扩散模型中的直觉物理理解 / LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference
这项研究提出了一种无需训练的方法LikePhys,通过比较物理合理与不合理视频的生成概率来评估视频扩散模型对物理规律的理解能力,发现模型规模越大对物理世界的模拟越准确,但在复杂动态场景中仍有不足。
DocReward:一种用于文档结构与风格优化的文档奖励模型 / DocReward: A Document Reward Model for Structuring and Stylizing
这篇论文提出了DocReward模型,它能专门评估文档的结构和排版美观度,帮助AI自动生成更符合人类偏好的专业文档,其效果优于GPT-4o和GPT-5。
GIR-Bench:用于推理图像生成的通用基准 / GIR-Bench: Versatile Benchmark for Generating Images with Reasoning
这篇论文提出了一个名为GIR-Bench的基准测试,用于系统评估多模态模型在图像理解与生成之间的一致性、逻辑推理驱动的图像生成以及多步骤图像编辑能力,揭示了当前模型在理解与生成之间仍存在差距。
FastHMR:通过令牌与层合并及扩散解码加速人体网格恢复 / FastHMR: Accelerating Human Mesh Recovery via Token and Layer Merging with Diffusion Decoding
这篇论文提出了一种名为FastHMR的新方法,通过智能合并冗余计算层和背景信息令牌,并结合扩散模型进行精细解码,在显著提升3D人体姿态恢复速度的同时,还能略微提高预测精度。
OmniVideoBench:面向全能多模态大语言模型的视听理解评估 / OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs
这篇论文提出了一个名为OmniVideoBench的大规模评估基准,专门用于全面测试多模态大语言模型在视频中结合声音和画面进行协同推理的能力,发现现有模型与人类水平仍有较大差距。
LLM生成的JavaScript代码的隐藏DNA:结构模式实现高精度作者归属 / The Hidden DNA of LLM-Generated JavaScript: Structural Patterns Enable High-Accuracy Authorship Attribution
这项研究发现不同大语言模型生成的JavaScript代码具有独特的结构风格特征,使得即使经过代码变换也能以超过88%的准确率识别出代码是由哪个特定模型生成的。
RefusalBench:基于接地的语言模型选择性拒绝能力的生成式评估 / RefusalBench: Generative Evaluation of Selective Refusal in Grounded Language Models
这项研究提出了一个名为RefusalBench的动态评估框架,通过程序化生成测试案例发现当前语言模型在基于有缺陷的上下文信息时难以正确拒绝回答,并揭示了拒绝能力由可分离的检测和分类技能组成,且可通过训练提升。
HUME:衡量文本嵌入任务中人类与模型性能差距 / HUME: Measuring the Human-Model Performance Gap in Text Embedding Tasks
这篇论文提出了一个名为HUME的评估框架,通过测量人类在16种文本嵌入任务上的表现,发现当前最佳模型平均仅比人类表现高出2.5%,但在低资源语言任务中模型仍存在明显不足,为理解模型能力提供了重要参考基准。
请先 登录 后再提交论文