arXiv最新AI论文速览速学

🔍

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 50 72小时内新更新论文 72h更新 167 最新: MovieTeller: Tool-augmented Movie Synopsis with ID Consistent Progressive Abstraction 02-27

arXiv ID: 2512.01925

arXiv 提交日期: 2025-12-01

llm model training theory reasoning chain-of-thought reinforcement learning optimization process reward

从优化视角修正大语言模型的思维过程 / Rectifying LLM Thought from Lens of Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为RePro的新方法，通过将大语言模型的推理过程看作优化步骤，并设计一个评估推理过程质量的奖励机制，来训练模型避免过度思考和冗长推理，从而提升其在数学、科学和编程等任务上的表现。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01830

arXiv 提交日期: 2025-12-01

agents llm natural language processing autonomous driving reinforcement fine-tuning vision-language model reasoning planning

OpenREAD：基于LLM作为评判者的强化开放式推理端到端自动驾驶 / OpenREAD: Reinforced Open-Ended Reasoning for End-to-End Autonomous Driving with LLM-as-Critic

1️⃣ 一句话总结

这篇论文提出了一个名为OpenREAD的端到端自动驾驶框架，它通过使用大型语言模型作为评判者来量化开放式问题的推理质量，并利用强化学习对整个系统进行联合优化，从而在推理和规划任务上取得了领先的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01827

arXiv 提交日期: 2025-12-01

computer vision multi-modal model training causal discovery vision-language model reasoning dataset reinforcement learning

CauSight：学习超感知以实现视觉因果发现 / CauSight: Learning to Supersense for Visual Causal Discovery

1️⃣ 一句话总结

这篇论文提出了一个名为CauSight的新模型，它能够像人一样从图片中识别出事物之间的因果关系，而不仅仅是看到它们，并通过一个包含3.2万张带标注图片的新数据集和一套特殊的训练方法，在视觉因果发现任务上显著超越了GPT-4等现有模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01822

arXiv 提交日期: 2025-12-01

agents benchmark model evaluation innovation evaluation agent benchmarking novelty metrics performance gain solution diversity

InnoGym：评估AI智能体创新潜力的基准测试 / InnoGym: Benchmarking the Innovation Potential of AI Agents

1️⃣ 一句话总结

这篇论文提出了首个专门评估AI智能体创新潜力的基准测试框架InnoGym，它通过‘性能增益’和‘方法新颖性’两个指标来衡量智能体是否不仅能给出正确答案，还能提出原创性的解决方案，揭示了当前AI在创造性与有效性之间存在差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01816

arXiv 提交日期: 2025-12-01

multi-modal benchmark model evaluation text-to-multi-image generation causal reasoning spatiotemporal consistency world knowledge dynamic process modeling

Envision：面向因果世界过程洞察的统一理解与生成基准 / Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights

1️⃣ 一句话总结

这篇论文提出了一个名为Envision的新基准，用于评估AI模型在理解和生成随时间展开的、符合因果关系的多图像序列方面的能力，发现现有模型在动态世界过程建模和时空一致性方面仍面临核心挑战。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01803

arXiv 提交日期: 2025-12-01

video generation model evaluation multi-modal human motion evaluation video quality metric skeletal geometry temporal understanding action plausibility

生成式动作讲述者：评估合成视频中的人体运动 / Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

1️⃣ 一句话总结

这篇论文提出了一种新的评估指标，通过融合人体骨骼几何特征和外观特征来学习真实世界动作的潜在空间，从而更准确地衡量AI生成的视频中人体动作是否自然流畅，解决了现有方法难以评估复杂动作动态和生理合理性的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01801

arXiv 提交日期: 2025-12-01

robotics reinforcement learning agents dexterous manipulation vision-language-action offline rl policy specialization long-horizon tasks

GR-RL：面向长周期灵巧与精确机器人操作 / GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation

1️⃣ 一句话总结

这篇论文提出了一个名为GR-RL的机器人学习框架，它通过多阶段训练流程，将通用的视觉-语言-动作策略升级为能完成复杂长周期灵巧操作（如自主系鞋带）的专家系统，其核心是利用强化学习来筛选、增强并优化原本不完美的人类演示数据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01763

arXiv 提交日期: 2025-12-01

agents systems model training gui agents history context policy optimization computational efficiency sequential navigation

HiconAgent：面向图形界面智能体的历史上下文感知策略优化 / HiconAgent: History Context-aware Policy Optimization for GUI Agents

1️⃣ 一句话总结

这篇论文提出了一种名为HiconAgent的智能体，它通过一种创新的历史上下文感知优化方法，让图形界面操作机器人既能有效利用过去的操作经验来提升任务成功率，又能大幅减少计算负担，实现了性能与效率的双重提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01715

arXiv 提交日期: 2025-12-01

robotics model training multi-modal vision-language-action flow matching geometric regularization distribution shift robust representation

DiG-Flow：基于差异引导的流匹配方法，用于构建鲁棒的视觉-语言-动作模型 / DiG-Flow: Discrepancy-Guided Flow Matching for Robust VLA Models

1️⃣ 一句话总结

这篇论文提出了一种名为DiG-Flow的新方法，它通过计算和利用观测与动作特征之间的分布差异来引导模型训练，从而显著提升了视觉-语言-动作模型在复杂任务和场景变化下的鲁棒性和性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.01707

arXiv 提交日期: 2025-12-01

multi-modal benchmark model evaluation gaze-guided reasoning streaming video understanding proactive prediction intention modeling egocentric vision

StreamGaze：流媒体视频中的视线引导时序推理与前瞻性理解 / StreamGaze: Gaze-Guided Temporal Reasoning and Proactive Understanding in Streaming Videos

1️⃣ 一句话总结

这篇论文提出了首个名为StreamGaze的基准测试，用于评估多模态大模型如何利用实时视线信号来理解动态视频内容、推断用户意图并进行前瞻性预测，结果发现现有模型在这些方面与人类能力存在显著差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.01925

1️⃣ 一句话总结

arXiv ID: 2512.01830

1️⃣ 一句话总结

arXiv ID: 2512.01827

1️⃣ 一句话总结

arXiv ID: 2512.01822

1️⃣ 一句话总结

arXiv ID: 2512.01816

1️⃣ 一句话总结

arXiv ID: 2512.01803

1️⃣ 一句话总结

arXiv ID: 2512.01801

1️⃣ 一句话总结

arXiv ID: 2512.01763

1️⃣ 一句话总结

arXiv ID: 2512.01715

1️⃣ 一句话总结

arXiv ID: 2512.01707

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.01925 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01830 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01827 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01822 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01816 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01803 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01801 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01763 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01715 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.01707 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.01925

arXiv ID: 2512.01830

arXiv ID: 2512.01827

arXiv ID: 2512.01822

arXiv ID: 2512.01816

arXiv ID: 2512.01803

arXiv ID: 2512.01801

arXiv ID: 2512.01763

arXiv ID: 2512.01715

arXiv ID: 2512.01707