arXiv ID:
2511.11005
借助视觉专家进行草拟与精修 / Draft and Refine with Visual Experts
1️⃣ 一句话总结
这项研究提出了一种新方法,通过量化模型对图像信息的依赖程度并引入视觉专家反馈,有效减少了大型视觉语言模型在回答时凭空捏造内容的问题,从而提高了答案的准确性和可靠性。
借助视觉专家进行草拟与精修 / Draft and Refine with Visual Experts
这项研究提出了一种新方法,通过量化模型对图像信息的依赖程度并引入视觉专家反馈,有效减少了大型视觉语言模型在回答时凭空捏造内容的问题,从而提高了答案的准确性和可靠性。
从证明到程序:揭示大型语言模型中工具引发的推理幻觉 / From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models
这项研究发现,尽管使用代码解释器等外部工具能提升语言模型的答案准确率,但会导致模型过度依赖工具输出而忽视逻辑推理过程,产生看似正确但缺乏合理性的解决方案,研究者通过优化方法成功改善了这一问题。
LoopTool:为鲁棒的大语言模型工具调用实现数据与训练的闭环 / LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls
这篇论文提出了一个名为LoopTool的自动化框架,通过将数据生成与模型训练紧密结合,不断诊断模型弱点、修正标注错误并针对性生成新数据,从而显著提升了大型语言模型使用外部工具的能力。
利用人工智能模拟视觉世界:发展路线图 / Simulating the Visual World with Artificial Intelligence: A Roadmap
这篇论文提出视频生成技术正从单纯制作美观视频发展为构建能交互、符合物理规律的虚拟环境,并将现代视频基础模型视为由模拟世界内部规律的‘隐式世界模型’和生成逼真视频的‘渲染器’两部分组成,最终目标是实现具备物理合理性、实时多模态交互和多尺度规划能力的智能系统。
对话系统中自适应多智能体响应优化 / Adaptive Multi-Agent Response Refinement in Conversational Systems
这项研究提出了一种多智能体框架,通过动态协调不同智能体分别优化对话响应的真实性、个性化和连贯性,从而显著提升了大型语言模型在复杂对话任务中的表现。
MADD:多智能体药物发现协同系统 / MADD: Multi-Agent Drug Discovery Orchestra
这项研究开发了一个名为MADD的多智能体系统,能够通过自然语言指令自动构建和执行药物早期发现流程,显著提升了新药候选分子筛选的效率和可及性,并在多个案例中验证了其优越性能。
DynaAct:动态动作空间下的大语言模型推理 / DynaAct: Large Language Model Reasoning with Dynamic Action Spaces
这篇论文提出了一种名为DynaAct的新方法,能够自动构建紧凑且高效的动作空间,从而提升大语言模型在复杂推理任务中的决策能力,同时保持推理速度。
基于大语言模型的全自动混沌工程:助力低成本构建弹性软件系统 / LLM-Powered Fully Automated Chaos Engineering: Towards Enabling Anyone to Build Resilient Software Systems at Low Cost
这篇论文提出了一个名为ChaosEater的系统,它利用大语言模型实现了混沌工程的全流程自动化,让普通用户也能以极低的成本自动测试和提升软件系统的容错能力。
超越事实检索:基于生成式语义工作区的RAG情景记忆 / Beyond Fact Retrieval: Episodic Memory for RAG with Generative Semantic Workspaces
这项研究提出了一种名为‘生成式语义工作区’的新型记忆框架,通过模拟人类情景记忆来帮助大型语言模型理解和推理长文本中随时间、空间演变的事件关系,相比现有技术显著提升了长文本处理性能并降低了计算成本。
DigiData:通用移动控制智能体的训练与评估 / DigiData: Training and Evaluating General-Purpose Mobile Control Agents
这篇论文提出了一个高质量、多样化的移动控制智能体训练数据集DigiData,并创建了配套的评估基准DigiData-Bench,通过更可靠的动态和AI驱动评估方法,推动能执行复杂任务的通用移动控制智能体的发展。
请先 登录 后再提交论文