arXiv最新AI论文速览速学

📄

2512.01949

🤖 系统

12-03 16:07

multi-modal model training model evaluation

token pruning multimodal llms efficiency optimization graph-structured pruning query-conditioned pruning

Script：面向多模态大语言模型的图结构与查询条件语义令牌剪枝方法 / Script: Graph-Structured and Query-Conditioned Semantic Token Pruning for Multimodal Large Language Models

1️⃣ 一句话总结

本文提出了一种名为Script的即插即用令牌剪枝方法，通过结合图结构剪枝和查询条件语义剪枝，在无需重新训练的情况下，显著提升了多模态大模型处理图像和视频时的计算效率与任务准确性。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2511.20639

🤖 系统

11-30 19:07

multi-agents llm systems

latent collaboration multi-agent systems hidden embeddings latent working memory efficiency optimization

📄 论文总结

多智能体系统中的潜在协作 / Latent Collaboration in Multi-Agent Systems

1️⃣ 一句话总结

这篇论文提出了一个名为LatentMAS的无训练框架，让多个AI智能体直接在内部表示空间中进行协作，相比传统基于文本交互的方法，不仅显著提升了推理准确率和效率，还大幅降低了计算和通信开销。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.21270

🤖 系统

11-30 17:45

llm model training systems

sparse attention efficiency optimization long context prefilling token permutation

📄 论文总结

通过令牌置换实现更稀疏的块稀疏注意力 / Sparser Block-Sparse Attention via Token Permutation

1️⃣ 一句话总结

这篇论文提出了一种名为PBS-Attn的新方法，通过重新排列输入序列中令牌的顺序，使得大语言模型在处理长文本时能够更高效地跳过不必要的计算块，从而在保持高精度的同时将预处理速度提升最高2.75倍。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2510.19995

🤖 系统

11-30 17:44

multi-agents llm agents

multi-agent communication task alignment collaborative workflows sequential action efficiency optimization

📄 论文总结

沟通至完成：通过智能多智能体通信建模协作工作流 / Communication to Completion: Modeling Collaborative Workflows with Intelligent Multi-Agent Communication

1️⃣ 一句话总结

这篇论文提出了一个名为C2C的创新框架，通过量化智能体任务对齐度和整合智能通信决策，让多个AI智能体在协作复杂任务时能动态优化沟通策略，从而将任务完成时间减少约40%，同时保持可接受的沟通成本。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2508.21046

🤖 系统

11-30 17:26

multi-modal robotics model training

vision-language-action instruction routing token sparsification efficiency optimization robotic manipulation

📄 论文总结

CogVLA：通过指令驱动路由与稀疏化实现认知对齐的视觉-语言-动作模型 / CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification

1️⃣ 一句话总结

这篇论文提出了一种名为CogVLA的高效智能模型，它通过模仿人类认知过程，使用指令来动态筛选视觉和语言信息，从而在机器人任务中实现了更高的准确性和更快的运行速度，同时大幅降低了计算成本。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📄

2508.18265

🤖 系统

11-30 17:24

multi-modal model training systems

multimodal reasoning reinforcement learning efficiency optimization visual resolution gui interaction

📄 论文总结

InternVL3.5：在通用性、推理能力和效率上推进开源多模态模型 / InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency

1️⃣ 一句话总结

这篇论文提出了InternVL 3.5开源多模态模型，通过创新的两阶段强化学习框架和动态视觉分辨率调节技术，显著提升了模型的推理能力、运行效率及通用性，并在多项任务中接近顶尖商业模型的性能。

👋 没兴趣 ☆ 感兴趣 📌 待读

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2512.01949

1️⃣ 一句话总结

2511.20639

📄 论文总结

1️⃣ 一句话总结

2510.21270

📄 论文总结

1️⃣ 一句话总结

2510.19995

📄 论文总结

1️⃣ 一句话总结

2508.21046

📄 论文总结

1️⃣ 一句话总结

2508.18265

📄 论文总结

1️⃣ 一句话总结

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2512.01949 📝

1️⃣ 一句话总结

2511.20639 📝

📄 论文总结

1️⃣ 一句话总结

2510.21270 📝

📄 论文总结

1️⃣ 一句话总结

2510.19995 📝

📄 论文总结

1️⃣ 一句话总结

2508.21046 📝

📄 论文总结

1️⃣ 一句话总结

2508.18265 📝

📄 论文总结

1️⃣ 一句话总结

获取最新论文摘要

2512.01949

2511.20639

2510.21270

2510.19995

2508.21046

2508.18265