从代码基础模型到智能体与应用:代码智能实用指南 / From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence
1️⃣ 一句话总结
这篇论文系统地梳理了代码大语言模型从数据准备到实际应用的全过程,通过一系列实验分析,为如何构建和优化能理解、生成代码的AI模型提供了实用指南,并指出了学术研究与实际软件开发需求之间的差距及未来方向。
请先 登录 后再提交论文
从代码基础模型到智能体与应用:代码智能实用指南 / From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence
这篇论文系统地梳理了代码大语言模型从数据准备到实际应用的全过程,通过一系列实验分析,为如何构建和优化能理解、生成代码的AI模型提供了实用指南,并指出了学术研究与实际软件开发需求之间的差距及未来方向。
VQ-VA World框架:面向视觉问答-视觉回答任务的数据中心化解决方案 / VQ-VA World: Towards High-Quality Visual Question-Visual Answering
本文提出了VQ-VA World框架,通过智能数据构建管道收集180万高质量图像-文本样本,并发布IntelligentBench人工策划基准,显著提升了开源模型在视觉问答-视觉回答任务上的性能,缩小了与专有模型的差距。
基于行列式点过程引导策略优化的多样化视频生成 / Diverse Video Generation with Determinantal Point Process-Guided Policy Optimization
这项研究提出了一种名为DPP-GRPO的新方法,通过结合行列式点过程和群体相对策略优化技术,有效提升了文本生成视频模型的输出多样性,确保同一文本提示能生成多个在视觉外观、镜头运动和场景结构上各不相同的高质量视频。
OpenMMReasoner:通过开放通用方法推动多模态推理前沿 / OpenMMReasoner: Pushing the Frontiers for Multimodal Reasoning with an Open and General Recipe
这项研究提出了一个完全透明的两阶段训练方法,通过精心构建的数据集和强化学习显著提升了多模态推理能力,在多个基准测试中比现有领先模型性能提升11.6%。
通过多模态基础模型扩展空间智能 / Scaling Spatial Intelligence with Multimodal Foundation Models
这篇论文提出了SenseNova-SI系列模型,通过构建包含800万多样化样本的数据集来增强多模态基础模型的空间理解能力,在多个空间智能基准测试中取得了领先性能,同时保持了强大的通用多模态理解能力。
O-Mem:面向个性化、长期交互、自我进化智能体的全能记忆系统 / O-Mem: Omni Memory System for Personalized, Long Horizon, Self-Evolving Agents
这篇论文提出了一个名为O-Mem的新型智能体记忆系统,它通过动态提取和更新用户特征与事件记录,有效解决了现有系统在长期交互中忽略关键信息、检索噪音大的问题,从而显著提升了智能体在个性化和一致性响应方面的性能表现。
MiroThinker:通过模型、上下文和交互扩展提升开源研究智能体性能边界 / MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling
这篇论文提出了一个名为MiroThinker的开源研究智能体,它通过增加模型与环境交互的深度和频率来提升性能,在多项测试中表现优异,接近商业系统的水平,并证明交互扩展是提升智能体能力的第三个关键维度,与模型规模和上下文长度同样重要。
MMaDA-并行:用于思维感知编辑与生成的多模态大扩散语言模型 / MMaDA-Parallel: Multimodal Large Diffusion Language Models for Thinking-Aware Editing and Generation
这项研究提出了一种并行多模态扩散框架,通过让文本和图像在生成过程中持续双向交互,有效解决了传统序列模型因错误传播导致的图文不一致问题,显著提升了思维感知图像合成的质量。
VideoSSR:视频自监督强化学习 / VideoSSR: Video Self-Supervised Reinforcement Learning
本研究提出了一种名为VideoSSR的视频自监督强化学习框架,通过设计三种无需人工标注的自监督任务来生成高质量训练数据,有效提升了多模态大语言模型在多种视频理解任务上的性能,平均提升超过5%。
长链基础思维:大规模提炼组合式视觉推理链条 / Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale
这篇论文提出了一个大规模生成高质量视觉推理数据集的新方法,通过两阶段合成框架创造出包含复杂推理链条的百万级问题,实验证明基于该数据训练的模型在多项视觉及跨模态推理任务上超越了现有最优模型。