arXiv ID:
2511.11005
借助视觉专家进行草拟与精修 / Draft and Refine with Visual Experts
1️⃣ 一句话总结
这项研究提出了一种新方法,通过量化模型对图像信息的依赖程度并引入视觉专家反馈,有效减少了大型视觉语言模型在回答时凭空捏造内容的问题,从而提高了答案的准确性和可靠性。
借助视觉专家进行草拟与精修 / Draft and Refine with Visual Experts
这项研究提出了一种新方法,通过量化模型对图像信息的依赖程度并引入视觉专家反馈,有效减少了大型视觉语言模型在回答时凭空捏造内容的问题,从而提高了答案的准确性和可靠性。
从证明到程序:揭示大型语言模型中工具引发的推理幻觉 / From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models
这项研究发现,尽管使用代码解释器等外部工具能提升语言模型的答案准确率,但会导致模型过度依赖工具输出而忽视逻辑推理过程,产生看似正确但缺乏合理性的解决方案,研究者通过优化方法成功改善了这一问题。
MMaDA-并行:用于思维感知编辑与生成的多模态大扩散语言模型 / MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
这项研究提出了一种并行多模态扩散框架,通过让文本和图像在生成过程中持续双向交互,有效解决了传统序列模型因错误传播导致的图文不一致问题,显著提升了思维感知图像合成的质量。
RF-DETR:面向实时检测Transformer的神经架构搜索 / RF-DETR: Neural Architecture Search for Real-Time Detection Transformers
这篇论文提出了RF-DETR,一种通过神经架构搜索自动寻找最佳速度和精度平衡的轻量级目标检测模型,在多个数据集上显著超越了现有实时检测方法的性能。
智能每瓦特:衡量本地人工智能的智能效率 / Intelligence per Watt: Measuring Intelligence Efficiency of Local AI
这篇论文提出用‘智能每瓦特’作为核心指标,证明通过小型语言模型和本地硬件协同处理AI任务,能够高效分担云端计算压力,并显著提升能效和实用性。
DigiData:通用移动控制智能体的训练与评估 / DigiData: Training and Evaluating General-Purpose Mobile Control Agents
这篇论文提出了一个高质量、多样化的移动控制智能体训练数据集DigiData,并创建了配套的评估基准DigiData-Bench,通过更可靠的动态和AI驱动评估方法,推动能执行复杂任务的通用移动控制智能体的发展。
MVU-Eval:面向多模态大语言模型的多视频理解评估 / MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs
这篇论文提出了首个多视频理解评估基准MVU-Eval,通过涵盖近5000个视频的1800多个问题,系统评估多模态大模型在跨视频感知与推理方面的能力,揭示了现有模型在处理多视频任务时的显著不足。
MPJudge:面向音乐诱导绘画的感知评估 / MPJudge: Towards Perceptual Assessment of Music-Induced Paintings
本文提出了一种评估音乐与绘画感知一致性的新方法MPJudge,通过构建首个大规模专家标注数据集和引入偏好优化训练,有效解决了现有方法依赖情绪识别而忽略更广泛感知线索的问题。
Llama-Embed-Nemotron-8B:面向多语言与跨语言任务的通用文本嵌入模型 / Llama-Embed-Nemotron-8B: A Universal Text Embedding Model for Multilingual and Cross-Lingual Tasks
这篇论文提出了一个开源的通用文本嵌入模型,通过在多语言任务中实现顶尖性能并公开模型权重与训练细节,为检索、分类等任务提供了灵活高效的解决方案。
MathSE:通过自演进迭代反思与奖励引导微调提升多模态数学推理能力 / MathSE: Improving Multimodal Mathematical Reasoning via Self-Evolving Iterative Reflection and Reward-Guided Fine-Tuning
这篇论文提出了一个名为MathSE的自演进框架,通过推理、反思和奖励反馈的循环迭代,显著提升了多模态大语言模型在复杂数学问题上的解决能力。
请先 登录 后再提交论文