arXiv最新AI论文速览速学

🔍

model training ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 170 72小时内新更新论文 72h更新 265 最新: PASTE: Physics-Aware Scattering Topology Embedding Framework for SAR Object Detection 03-18

arXiv ID: 2510.14980

arXiv 提交日期: 2025-10-16

llm agents model training machine design physical reasoning reinforcement learning spatial reasoning compositional assembly

组合式机器的能动设计 / Agentic Design of Compositional Machines

1️⃣ 一句话总结

这篇论文探讨了大型语言模型能否通过组合标准化零件来设计能在模拟物理环境中运行的机器，并开发了一个测试平台来评估和改进模型在空间推理、策略组装等方面的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14978

arXiv 提交日期: 2025-10-16

computer vision model training aigc image editing diffusion models vision-language models unsupervised learning distribution matching

无需图像编辑对学习的图像编辑模型 / Learning an Image Editing Model without Image Editing Pairs

1️⃣ 一句话总结

这项研究提出了一种无需成对训练数据的新方法，通过结合视觉语言模型的反馈和分布匹配技术，直接优化扩散模型来实现高质量图像编辑，其效果媲美依赖大量监督数据的现有模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14976

arXiv 提交日期: 2025-10-16

computer vision multi-modal model training human pose animation interactive poses diffusion models motion generation text-to-interaction

Ponimator：基于交互姿态展开的通用人-人交互动画生成框架 / Ponimator: Unfolding Interactive Pose for Versatile Human-human Interaction Animation

1️⃣ 一句话总结

这篇论文提出了一个名为Ponimator的创新框架，它利用近距离人-人交互姿态作为核心线索，通过两个扩散模型分别生成动态交互动作和合成交互姿态，从而实现了从图像、文本或单姿态输入生成多样化人-人交互动画的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14975

arXiv 提交日期: 2025-10-16

computer vision model training aigc identity-consistent generation text-to-image copy-paste artifacts diffusion models multi-person generation

WithAnyone：面向可控且身份一致性的图像生成 / WithAnyone: Towards Controllable and ID Consistent Image Generation

1️⃣ 一句话总结

这篇论文提出了一种新的图像生成方法WithAnyone，通过构建大规模配对数据集和引入对比性身份损失，有效解决了现有模型在生成人物图像时过度复制参考面部的问题，实现了在保持身份一致性的同时支持姿势、表情等自然变化的可控生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14974

arXiv 提交日期: 2025-10-16

model training machine learning aigc generative models diffusion models imitation learning few-step generation flow matching

pi-Flow：通过模仿蒸馏实现基于策略的少步生成 / pi-Flow: Policy-Based Few-Step Generation via Imitation Distillation

1️⃣ 一句话总结

这篇论文提出了一种名为pi-Flow的新方法，通过让模型学习一个简单策略来模仿教师模型的生成路径，从而在保持图像质量的同时用更少的步骤生成多样化的图像，解决了现有方法在质量和多样性之间的权衡问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14973

arXiv 提交日期: 2025-10-16

llm model training systems kv cache diffusion models efficient inference attention mechanisms decoding acceleration

注意力机制是扩散大语言模型中KV缓存的全部所需 / Attention Is All You Need for KV Cache in Diffusion LLMs

1️⃣ 一句话总结

这项研究提出了一种名为弹性缓存的训练免费方法，通过选择性更新关键值缓存来大幅减少扩散大语言模型在推理时的计算冗余，在保持生成质量的同时显著提升了解码速度，在多个任务上实现了最高45倍的加速效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14969

arXiv 提交日期: 2025-10-16

agents llm model training ui simulation agent training synthetic data digital agents scaling strategy

作为可扩展通用模拟器的大语言模型用于进化数字代理训练 / LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

1️⃣ 一句话总结

这篇论文提出了一种名为UI-Simulator的可扩展模拟方法，通过生成多样化的用户界面轨迹来高效训练数字代理，使其在真实任务中表现优于依赖人工数据的方法，并展示了如何用更小的模型达到大模型的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14961

arXiv 提交日期: 2025-10-16

llm model training theory recurrent-depth models diffusion language models parallel sampling generation efficiency autoregressive generation

循环深度模型的高效并行采样器及其与扩散语言模型的关联 / Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models

1️⃣ 一句话总结

这篇论文提出了一种新的并行采样方法，通过借鉴扩散模型的思想，显著加速了循环深度语言模型的文本生成速度，在无需额外调优的情况下实现了高达5倍的效率提升。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14958

arXiv 提交日期: 2025-10-16

multi-modal natural language processing model training multimodal reasoning visual chain-of-thought mathematical reasoning diagram generation benchmark

MathCanvas：用于多模态数学推理的内在视觉思维链 / MathCanvas: Intrinsic Visual Chain-of-Thought for Multimodal Mathematical Reasoning

1️⃣ 一句话总结

这篇论文提出了一个名为MathCanvas的框架，通过预训练和微调让大型多模态模型学会在解决数学问题时自动生成和编辑图表，从而显著提升了其在几何等需要视觉辅助的数学领域的推理能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2510.14955

arXiv 提交日期: 2025-10-16

video generation model training aigc preference learning motion synthesis video quality direct preference optimization human activities

真实与否，即为偏好：RealDPO方法 / RealDPO: Real or Not Real, that is the Preference

1️⃣ 一句话总结

这篇论文提出了一种名为RealDPO的新方法，通过利用真实视频作为正面范例来训练AI模型，有效提升了生成视频中复杂动作的自然度和真实感，并配套发布了高质量动作数据集RealAction-5K。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2510.14980

1️⃣ 一句话总结

arXiv ID: 2510.14978

1️⃣ 一句话总结

arXiv ID: 2510.14976

1️⃣ 一句话总结

arXiv ID: 2510.14975

1️⃣ 一句话总结

arXiv ID: 2510.14974

1️⃣ 一句话总结

arXiv ID: 2510.14973

1️⃣ 一句话总结

arXiv ID: 2510.14969

1️⃣ 一句话总结

arXiv ID: 2510.14961

1️⃣ 一句话总结

arXiv ID: 2510.14958

1️⃣ 一句话总结

arXiv ID: 2510.14955

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2510.14980 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14978 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14976 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14975 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14974 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14973 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14969 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14961 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14958 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2510.14955 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2510.14980

arXiv ID: 2510.14978

arXiv ID: 2510.14976

arXiv ID: 2510.14975

arXiv ID: 2510.14974

arXiv ID: 2510.14973

arXiv ID: 2510.14969

arXiv ID: 2510.14961

arXiv ID: 2510.14958

arXiv ID: 2510.14955