arXiv最新AI论文速览速学

🔍

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 58 最新: Light-ResKAN: A Parameter-Sharing Lightweight KAN with Gram Polynomials for Efficient SAR Image Recognition 04-03

arXiv ID: 2509.01656

arXiv 提交日期: 2025-09-01

multi-modal agents reinforcement learning visual reasoning tool usage reinforcement learning multi-modal llms visual perception

基于工具增强的视觉感知强化学习 / Reinforced Visual Perception with Tools

1️⃣ 一句话总结

本研究提出一种基于强化学习的视觉工具增强方法，通过训练多模态大模型自主调用四种视觉工具，在多个视觉推理基准测试中显著超越传统监督学习方法，有效提升了模型的视觉感知与推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.01644

arXiv 提交日期: 2025-09-01

multi-modal model training machine learning vision-language pretraining generative models training efficiency visual encoders multimodal learning

OpenVision 2：面向多模态学习的生成式预训练视觉编码器家族 / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning

1️⃣ 一句话总结

这篇论文提出了一个简化的视觉编码器OpenVision 2，它通过移除文本编码器和对比损失、仅保留生成式训练方法，在保持多模态任务性能的同时，显著提升了训练效率并降低了资源消耗。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.01610

arXiv 提交日期: 2025-09-01

llm multi-modal model training vision-language models collaborative learning self-improvement alignment peer evaluation

通过向同行小组学习改进大型视觉语言模型 / Improving Large Vision and Language Models by Learning from a Panel of Peers

1️⃣ 一句话总结

这项研究提出了一种让多个大型视觉语言模型互相评估和学习的新方法，通过模拟同行评审过程来提升模型性能，无需依赖大量人工标注数据，在多个测试中平均得分从48%提升至57%。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.01563

arXiv 提交日期: 2025-09-01

multi-modal video model training video understanding slow-fast encoding progressive pre-training multimodal llm long-context video

Kwai Keye-VL 1.5 技术报告 / Kwai Keye-VL 1.5 Technical Report

1️⃣ 一句话总结

这篇论文提出了Keye-VL-1.5模型，它通过创新的慢快视频编码、渐进式预训练和综合后训练方法，显著提升了视频理解能力，在保持通用多模态任务竞争力的同时，特别擅长处理动态复杂的视频内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.01396

arXiv 提交日期: 2025-09-01

llm agents benchmark research agents evaluation benchmark multi-agent systems task generation academic seminars

深度研究竞技场：基于学术研讨会的任务首次检验大语言模型的研究能力 / DeepResearch Arena: The First Exam of LLMs' Research Abilities via Seminar-Grounded Tasks

1️⃣ 一句话总结

这篇论文提出了一个名为DeepResearch Arena的新基准测试，它利用真实学术研讨会内容自动生成高质量研究任务，有效评估大语言模型在多学科研究中的综合能力，并发现当前先进模型仍面临显著挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.01360

arXiv 提交日期: 2025-09-01

medical multi-modal model training medical image retrieval self-supervised learning zero-shot learning multimodal encoder transfer learning

M3Ret：通过自监督实现零样本多模态医学图像检索 / M3Ret: Unleashing Zero-shot Multimodal Medical Image Retrieval via Self-Supervision

1️⃣ 一句话总结

这项研究提出了一种名为M3Ret的统一自监督学习框架，无需针对不同医学图像模态定制模型，就能在零样本条件下高效检索2D、3D和视频等多种类型的医学图像，并展现出对未见过模态的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.01250

arXiv 提交日期: 2025-09-01

computer vision model training machine learning point cloud self-supervised learning cross reconstruction 3d vision pre-training

面向更富多样性和挑战性的点云学习预训练：基于解耦视图的自监督交叉重建 / Towards More Diverse and Challenging Pre-training for Point Cloud Learning: Self-Supervised Cross Reconstruction with Decoupled Views

1️⃣ 一句话总结

这篇论文提出了一种名为Point-PQAE的新型点云自监督学习方法，通过生成两个不同的点云视图并让它们相互重建，显著提升了预训练的难度和效果，在多个基准测试中性能优于现有方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.01215

arXiv 提交日期: 2025-09-01

computer vision natural language processing multi-modal document conversion synthetic data self-improvement vision-language models data generation

POINTS-Reader：无需蒸馏的视觉-语言模型文档转换适配方法 / POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversion

1️⃣ 一句话总结

这项研究提出了一种无需依赖教师模型蒸馏的两阶段自动化框架，通过生成合成数据和自我改进迭代训练，显著提升了复杂格式文档转换的准确性和数据质量。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.01106

arXiv 提交日期: 2025-09-01

robotics agents natural language processing robot reasoning task planning human-robot interaction chain-of-thought hierarchical control

Robix：一种用于机器人交互、推理与规划的统一模型 / Robix: A Unified Model for Robot Interaction, Reasoning and Planning

1️⃣ 一句话总结

这篇论文提出了一个名为Robix的统一模型，它能让机器人像人一样思考、规划和对话，通过整合推理、任务规划和自然语言交互，使机器人能够执行复杂指令、处理突发情况并与人类流畅沟通，其性能甚至超越了GPT-4o等先进模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2509.01055

arXiv 提交日期: 2025-09-01

reinforcement learning agents systems tool use multi-modal asynchronous execution benchmark modular framework

VerlTool：面向使用工具的整体性智能体强化学习 / VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

1️⃣ 一句话总结

这篇论文提出了一个名为VerlTool的统一模块化框架，解决了现有工具增强型强化学习系统存在的代码分散、执行效率低和跨领域扩展难的问题，通过标准化工具管理、异步执行加速和模块化设计，在多个任务领域实现了高效且可扩展的智能体训练。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2509.01656

1️⃣ 一句话总结

arXiv ID: 2509.01644

1️⃣ 一句话总结

arXiv ID: 2509.01610

1️⃣ 一句话总结

arXiv ID: 2509.01563

1️⃣ 一句话总结

arXiv ID: 2509.01396

1️⃣ 一句话总结

arXiv ID: 2509.01360

1️⃣ 一句话总结

arXiv ID: 2509.01250

1️⃣ 一句话总结

arXiv ID: 2509.01215

1️⃣ 一句话总结

arXiv ID: 2509.01106

1️⃣ 一句话总结

arXiv ID: 2509.01055

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2509.01656 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.01644 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.01610 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.01563 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.01396 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.01360 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.01250 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.01215 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.01106 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2509.01055 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2509.01656

arXiv ID: 2509.01644

arXiv ID: 2509.01610

arXiv ID: 2509.01563

arXiv ID: 2509.01396

arXiv ID: 2509.01360

arXiv ID: 2509.01250

arXiv ID: 2509.01215

arXiv ID: 2509.01106

arXiv ID: 2509.01055