arXiv ID:
2509.14033
SAIL-VL2 技术报告 / SAIL-VL2 Technical Report
1️⃣ 一句话总结
SAIL-VL2是一个先进的开放视觉语言基础模型,通过大规模数据优化、渐进式训练和高效架构设计,在图像和视频理解任务中实现了顶尖性能,尤其在复杂推理任务上表现卓越。
SAIL-VL2 技术报告 / SAIL-VL2 Technical Report
SAIL-VL2是一个先进的开放视觉语言基础模型,通过大规模数据优化、渐进式训练和高效架构设计,在图像和视频理解任务中实现了顶尖性能,尤其在复杂推理任务上表现卓越。
ReSum:通过上下文摘要解锁长范围搜索智能 / ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
这篇论文提出了一种名为ReSum的新方法,通过定期总结上下文来突破大型语言模型在处理复杂网络搜索任务时的记忆限制,从而显著提升了搜索智能体的性能和探索能力。
通过环境扩展迈向通用智能体智能 / Towards General Agentic Intelligence via Environment Scaling
这篇论文提出了一种通过自动生成多样化模拟环境来扩展训练场景的方法,并采用两阶段微调策略,显著提升了大型语言模型在实际应用中调用各种API功能的智能水平。
通过持续预训练扩展智能体能力 / Scaling Agents via Continual Pre-training
这篇论文提出了一种名为Agentic CPT的持续预训练方法,通过构建强大的智能体基础模型来解决现有方法在复杂任务中表现不佳的问题,并在多个基准测试中取得了领先性能。
UI-S1:通过半在线强化学习推进图形用户界面自动化 / UI-S1: Advancing GUI Automation via Semi-online Reinforcement Learning
这篇论文提出了一种名为‘半在线强化学习’的新方法,通过在离线数据上模拟在线交互来有效训练图形界面自动化代理,既保证了训练稳定性又提升了多步骤任务的执行能力,在多个基准测试中取得了领先性能。
HANRAG:用于多跳问答的启发式精准抗噪声检索增强生成框架 / HANRAG: Heuristic Accurate Noise-resistant Retrieval-Augmented Generation for Multi-hop Question Answering
本文提出了一种名为HANRAG的新型智能框架,通过智能分解复杂问题并过滤无关信息,有效提升了多跳问答系统的准确性和抗干扰能力。
废话学:用深度解读无意义内容挑战大语言模型 / Drivel-ology: Challenging LLMs with Interpreting Nonsense with Depth
这篇论文提出了‘废话学’概念,指那些语法通顺但含义矛盾或隐含深意的表达,并通过构建多语言数据集证明当前大语言模型难以理解这类文本的深层语义,揭示了模型在语用理解上的局限性。
Loong:通过验证器大规模合成长链思维 / Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers
这篇论文提出了一个名为Loong的开源框架,通过自动验证的合成数据生成和强化学习,帮助大语言模型在数学、化学等多种复杂推理领域提升其长链思维推理能力。
UI-TARS-2技术报告:通过多轮强化学习推进图形用户界面智能体 / UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning
这篇论文提出了UI-TARS-2智能体模型,通过数据飞轮和多轮强化学习等技术,显著提升了图形界面操作的性能,在多项测试中超越现有模型并接近人类水平。
PaSa:基于大语言模型的全面学术论文搜索智能体 / PaSa: An LLM Agent for Comprehensive Academic Paper Search
这篇论文提出了一个名为PaSa的智能学术搜索助手,它能够自主决策、调用工具并阅读论文,通过强化学习和合成数据训练,在真实场景的学术查询中显著超越了谷歌、ChatGPT等现有搜索方法。
请先 登录 后再提交论文