arXiv最新AI论文速览速学

🔍

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 167 最新: MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction 02-27

arXiv ID: 2512.07461

arXiv 提交日期: 2025-12-08

llm agents model training parallel reasoning reinforcement learning self-distillation policy optimization reasoning efficiency

原生并行推理器：通过自蒸馏强化学习实现并行推理 / Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning

1️⃣ 一句话总结

这篇论文提出了一个名为NPR的无教师框架，它让大语言模型通过自我进化的方式，从模仿串行思考转变为真正具备并行推理能力，从而在多个任务上显著提升了性能和推理速度。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.07168

arXiv 提交日期: 2025-12-08

audio model training natural language processing self-supervised learning speech representation neural tokenization audio compression joint-embedding predictive architecture

JEPA作为神经分词器：利用密度自适应注意力学习鲁棒的语音表征 / JEPA as a Neural Tokenizer: Learning Robust Speech Representations with Density Adaptive Attention

1️⃣ 一句话总结

这篇论文提出了一种两阶段自监督学习框架，它结合了联合嵌入预测架构和一种密度自适应注意力机制，能够从语音中高效提取出高度压缩、易于语言模型处理且能高质量还原成声音的语义特征单元。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.07197

arXiv 提交日期: 2025-12-08

computer vision model training systems 3d reconstruction gaussian splatting compression novel view synthesis survey

SUCCESS-GS：面向高效静态与动态高斯泼溅的紧凑性与压缩方法综述 / SUCCESS-GS: Survey of Compactness and Compression for Efficient Static and Dynamic Gaussian Splatting

1️⃣ 一句话总结

这篇综述论文系统梳理了旨在降低3D高斯泼溅技术内存与计算开销的各种压缩方法，涵盖了静态和动态3D场景，为未来实现更高效、紧凑的实时3D重建指明了方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.07107

arXiv 提交日期: 2025-12-08

computer vision model training systems 3d reconstruction gaussian splatting signed distance field relighting geometry alignment

COREA：通过双向3D到3D监督实现可重光照3D高斯与SDF之间的从粗到精3D表示对齐 / COREA: Coarse-to-Fine 3D Representation Alignment Between Relightable 3D Gaussians and SDF via Bidirectional 3D-to-3D Supervision

1️⃣ 一句话总结

这篇论文提出了一个名为COREA的统一框架，它通过一种从粗到精的双向3D对齐方法，首次联合学习可重光照的3D高斯模型和符号距离场，从而在三维空间中直接学习几何信号，最终实现了高质量的新视角合成、网格重建和基于物理的渲染。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.07222

arXiv 提交日期: 2025-12-08

multi-modal model training model evaluation vision-language models adversarial robustness cross-modal attention function words adversarial attacks

为视觉语言模型的免费鲁棒性而少关注功能词 / Pay Less Attention to Function Words for Free Robustness of Vision-Language Models

1️⃣ 一句话总结

这篇论文发现视觉语言模型容易受到跨模态对抗攻击的弱点与模型过度关注文本中的功能词（如“的”、“在”）有关，并提出了一种名为“功能词去注意”的新方法，通过从注意力中减去功能词的影响，显著提升了模型的抗攻击能力，同时几乎不影响其正常任务性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.08006

arXiv 提交日期: 2025-12-08

audio systems model training text-to-speech phonemization low latency real-time systems service-oriented architecture

超越统一模型：面向服务的低延迟、上下文感知音素化方法，用于实时文本转语音 / Beyond Unified Models: A Service-Oriented Approach to Low Latency, Context Aware Phonemization for Real Time TTS

1️⃣ 一句话总结

这篇论文提出了一种面向服务的架构，将高质量但计算量大的上下文感知音素化模块与核心语音合成引擎解耦，从而在保证实时响应的同时显著提升了发音的准确性和自然度，特别适合离线或终端设备上的语音合成应用。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.06818

arXiv 提交日期: 2025-12-07

computer vision model training systems differentiable rendering novel view synthesis mesh reconstruction 3d gaussian splatting real-time rendering

网格溅射：基于不透明网格的可微分渲染 / MeshSplatting: Differentiable Rendering with Opaque Meshes

1️⃣ 一句话总结

这篇论文提出了一种名为MeshSplatting的新方法，它能够将先进的神经渲染技术与传统的3D游戏引擎相结合，通过优化网格的几何形状和外观来高效生成高质量、可实时渲染的3D场景模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.06951

arXiv 提交日期: 2025-12-07

robotics computer vision multi-modal vision-language-action behavior challenge flow matching bimanual manipulation action compression

视觉-语言-动作模型的任务自适应：2025年BEHAVIOR挑战赛冠军解决方案 / Task adaptation of Vision-Language-Action model: 1st Place Solution for the 2025 BEHAVIOR Challenge

1️⃣ 一句话总结

这篇论文介绍了一种在复杂家庭任务模拟挑战赛中夺冠的智能体策略，它通过引入相关噪声生成平滑动作、使用可学习注意力机制解决任务歧义，并优化了训练与推理过程，从而在50项多样化任务中取得了优异表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.06963

arXiv 提交日期: 2025-12-07

robotics multi-modal model training video generation vision-language-action diffusion transformer robot manipulation visual imagination

VideoVLA：视频生成模型可作为通用机器人操作器 / VideoVLA: Video Generators Can Be Generalizable Robot Manipulators

1️⃣ 一句话总结

这篇论文提出了VideoVLA方法，通过将大型视频生成模型改造为机器人操作器，使其能根据语言指令和当前图像，同时预测未来的动作序列和视觉结果，从而显著提升了机器人在新任务、新物体和新环境中的泛化能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.06905

arXiv 提交日期: 2025-12-07

video generation aigc model training zero-shot learning reference-to-video masked training video synthesis subject identity preservation

扩展零样本参考图像到视频生成 / Scaling Zero-Shot Reference-to-Video Generation

1️⃣ 一句话总结

这篇论文提出了一种名为Saber的零样本框架，它无需依赖昂贵且难以获取的参考图像-视频-文本配对数据，仅使用视频-文本对进行训练，就能生成与文本描述一致且保持参考图像主体身份的高质量视频，并在性能上超越了需要专门数据训练的方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.07461

1️⃣ 一句话总结

arXiv ID: 2512.07168

1️⃣ 一句话总结

arXiv ID: 2512.07197

1️⃣ 一句话总结

arXiv ID: 2512.07107

1️⃣ 一句话总结

arXiv ID: 2512.07222

1️⃣ 一句话总结

arXiv ID: 2512.08006

1️⃣ 一句话总结

arXiv ID: 2512.06818

1️⃣ 一句话总结

arXiv ID: 2512.06951

1️⃣ 一句话总结

arXiv ID: 2512.06963

1️⃣ 一句话总结

arXiv ID: 2512.06905

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.07461 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.07168 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.07197 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.07107 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.07222 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.08006 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.06818 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.06951 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.06963 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.06905 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.07461

arXiv ID: 2512.07168

arXiv ID: 2512.07197

arXiv ID: 2512.07107

arXiv ID: 2512.07222

arXiv ID: 2512.08006

arXiv ID: 2512.06818

arXiv ID: 2512.06951

arXiv ID: 2512.06963

arXiv ID: 2512.06905