LongVT:通过原生工具调用激励“长视频思维” / LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
1️⃣ 一句话总结
这篇论文提出了一个名为LongVT的智能框架,它模仿人类观看长视频时‘先概览再聚焦细节’的思维过程,通过让大模型自己学会‘裁剪’视频片段来逐步寻找答案,有效解决了现有模型在处理长视频时容易‘胡编乱造’的问题,并在多个评测中表现优异。
请先 登录 后再提交论文
LongVT:通过原生工具调用激励“长视频思维” / LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
这篇论文提出了一个名为LongVT的智能框架,它模仿人类观看长视频时‘先概览再聚焦细节’的思维过程,通过让大模型自己学会‘裁剪’视频片段来逐步寻找答案,有效解决了现有模型在处理长视频时容易‘胡编乱造’的问题,并在多个评测中表现优异。
Yo'City:通过自我批判扩展实现个性化和无边界的3D逼真城市场景生成 / Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion
Yo'City是一个创新的智能框架,它利用大型模型的推理能力,通过分层规划和迭代优化,让用户能够生成无限扩展且高度个性化的逼真3D城市场景,并在多个评估维度上超越了现有技术。
P1:通过强化学习掌握物理奥林匹克竞赛 / P1: Mastering Physics Olympiads with Reinforcement Learning
这篇论文提出了一个名为P1的系列开源模型,它完全通过强化学习训练,在解决国际物理奥林匹克竞赛等高水平物理问题上表现卓越,甚至超越了人类金牌得主,同时展现出在数学和编程等其他推理任务上的强大通用能力。
WebVIA:一种基于Web的视觉语言智能体框架,用于交互式且可验证的UI到代码生成 / WebVIA: A Web-based Vision-Language Agentic Framework for Interactive and Verifiable UI-to-Code Generation
这篇论文提出了一个名为WebVIA的创新框架,它通过智能体协作自动将用户界面设计图转换为可交互的网页代码,并验证代码功能,显著提升了UI开发的自动化水平和准确性。
ToolScope:一种用于视觉引导和长视野工具使用的智能体框架 / ToolScope: An Agentic Framework for Vision-Guided and Long-Horizon Tool Use
这篇论文提出了一个名为ToolScope的智能框架,它通过结合全局规划和局部视觉感知,有效提升了多模态大模型在复杂视觉问答任务中使用外部工具的能力,并在多个基准测试中显著提高了性能。
VLA^2:通过智能体框架增强视觉-语言-动作模型对未知概念的操作能力 / VLA^2: Empowering Vision-Language-Action Models with an Agentic Framework for Unseen Concept Manipulation
这项研究提出了一种名为VLA^2的新型智能体框架,通过整合网络检索和物体检测等外部模块,有效提升了视觉-语言-动作模型对训练数据中未见过物体的操作成功率,在最具挑战性的测试场景中比基线模型提高了44.2%的绩效。
SceneWeaver:一个可扩展且自反思的智能体实现一体化3D场景合成 / SceneWeaver: All-in-One 3D Scene Synthesis with an Extensible and Self-Reflective Agent
这篇论文提出了一个名为SceneWeaver的智能系统,它通过自我反思和工具调用的方式,自动生成既真实又符合用户复杂要求的3D室内场景,显著超越了现有方法在物理合理性、视觉真实性和语义对齐方面的表现。