arXiv ID:
2509.06945
交错推理以改进文本到图像生成 / Interleaving Reasoning for Better Text-to-Image Generation
1️⃣ 一句话总结
这篇论文提出了一种交错推理生成框架,通过交替进行文本思考和图像合成来逐步优化图像细节与质量,显著提升了文本到图像生成的准确性和视觉效果。
交错推理以改进文本到图像生成 / Interleaving Reasoning for Better Text-to-Image Generation
这篇论文提出了一种交错推理生成框架,通过交替进行文本思考和图像合成来逐步优化图像细节与质量,显著提升了文本到图像生成的准确性和视觉效果。
论文转智能体:将研究论文重新构想为交互式且可靠的AI智能体 / Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents
这篇论文提出了一个名为Paper2Agent的自动化框架,能够将静态的研究论文转化为可交互的AI智能体,使读者能够通过自然语言直接调用论文中的方法和工具进行复杂科学查询,从而降低理解和使用研究成果的门槛。
R²AI:在不断变化的世界中构建具有抵抗力和恢复力的人工智能 / \texttt{R$^\textbf{2}$AI}: Towards Resistant and Resilient AI in an Evolving World
这篇论文提出了一种名为R²AI的新框架,通过模拟生物免疫系统的动态对抗学习过程,将抵抗已知威胁和应对未知风险相结合,旨在为不断发展的AI系统提供可扩展且主动的安全保障。
D-HUMOR:通过多模态开放式推理理解黑色幽默——一个基准数据集与方法 / D-HUMOR: Dark Humor Understanding via Multimodal Open-ended Reasoning -- A Benchmark Dataset and Method
这篇论文提出了一个专门用于识别网络表情包中黑色幽默的数据集和一种多模态推理增强方法,通过让AI模型模拟作者视角生成解释并融合图文信息,显著提升了黑色幽默检测、目标识别和强度预测的准确率。
深度研究系统的强化学习基础:一项综述 / Reinforcement Learning Foundations for Deep Research Systems: A Survey
这篇论文是第一篇专门探讨强化学习如何为能够自主执行复杂多步骤任务的深度研究系统提供核心训练方法的综述,强调了强化学习在减少人为偏见、优化长期决策和多目标权衡方面的独特优势。
WebExplorer:通过探索与演化训练长视野网络智能体 / WebExplorer: Explore and Evolve for Training Long-Horizon Web Agents
本研究提出了一种通过模型探索和查询演化生成高质量训练数据的方法,成功训练出能进行多步骤复杂网络导航的8B参数智能体,在多项信息搜索任务中超越了更大规模的模型。
扩展多轮离线强化学习与多智能体树搜索用于大型语言模型步骤证明器 / Scaling up Multi-Turn Off-Policy RL and Multi-Agent Tree Search for LLM Step-Provers
这篇论文提出了一个名为BFS-Prover-V2的系统,通过结合创新的多轮离线强化学习训练方法和多智能体分层搜索架构,显著提升了大型语言模型在自动定理证明中的性能,并在数学证明基准测试中取得了领先成果。
MAS-Bench:一个用于评估移动GUI与快捷操作混合智能体的统一基准 / MAS-Bench: A Unified Benchmark for Shortcut-Augmented Hybrid Mobile GUI Agents
这篇论文提出了一个名为MAS-Bench的基准测试平台,专门用于评估移动设备上结合图形界面操作和快捷方式的混合智能体,通过139个复杂任务和多种评价指标,证明了混合方法比纯图形界面操作更高效和可靠。
DINOv3是否设定了医学视觉新标准? / Does DINOv3 Set a New Medical Vision Standard?
这项研究发现,尽管DINOv3模型仅基于自然图像训练,但在多种医学图像任务中表现出色,甚至超越了一些专用医学模型,但在需要深度领域知识的任务中存在局限,且性能不总是随模型规模增大而提升。
通过对比注意力聚焦:增强视觉语言模型的视觉推理能力 / Focusing by Contrastive Attention: Enhancing VLMs' Visual Reasoning
这项研究提出了一种无需额外训练的方法CARVE,通过对比视觉语言模型中通用查询和任务特定查询的注意力差异,有效分离图像中的语义信号和视觉噪声,从而在复杂视觉场景下显著提升模型的推理性能。
请先 登录 后再提交论文