arXiv最新AI论文速览速学

🔍

标签: #model training ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 46 72小时内新更新论文 72h更新 120 最新: Cascaded Transfer: Learning Many Tasks under Budget Constraints 01-31

arXiv ID: 2512.13683

arXiv 提交日期: 2025-12-15

computer vision model training systems 3d scene generation spatial reasoning instance models generalization implicit learning

I-Scene：三维实例模型是隐式的通用空间学习器 / I-Scene: 3D Instance Models are Implicit Generalizable Spatial Learners

1️⃣ 一句话总结

这篇论文提出了一种新方法，通过重新利用预训练的三维物体生成器来学习场景布局，使其无需依赖特定数据集就能理解和生成具有合理空间关系（如支撑、对称）的新三维场景。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13961

arXiv 提交日期: 2025-12-15

llm model training systems open-source llm long-context reasoning function calling model lifecycle language model

Olmo 3 / Olmo 3

1️⃣ 一句话总结

这篇论文介绍了名为Olmo 3的系列开源大语言模型，包含70亿和320亿参数两个版本，特别擅长处理长文本推理、代码生成和指令跟随等任务，并完全公开了从数据到训练的所有细节，其中最强的320亿参数模型是目前性能最好的开源推理模型。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13660

arXiv 提交日期: 2025-12-15

robotics multi-modal model training spatial reasoning vision-language models reinforcement fine-tuning embodied ai 3d perception

RoboTracer：让视觉语言模型掌握机器人空间轨迹推理能力 / RoboTracer: Mastering Spatial Trace with Reasoning in Vision-Language Models for Robotics

1️⃣ 一句话总结

这篇论文提出了一种名为RoboTracer的新型视觉语言模型，它通过创新的训练方法让机器人具备了在复杂真实场景中进行多步骤空间推理和精确测量的能力，从而能规划并执行长距离的动态任务。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13655

arXiv 提交日期: 2025-12-15

llm model training model evaluation safety alignment adversarial testing capability preservation refusal behavior model ablation

大语言模型能力消除方法比较分析：一项跨架构评估 / Comparative Analysis of LLM Abliteration Methods: A Cross-Architecture Evaluation

1️⃣ 一句话总结

这篇论文评估了四种用于移除大语言模型安全拒绝能力的工具在不同模型上的效果，发现数学推理能力受这些工具影响最大，为研究者选择合适工具提供了依据。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13303

arXiv 提交日期: 2025-12-15

multi-modal model training model evaluation table visualization infographic generation multimodal reasoning self-correcting pipeline benchmark

ShowTable：通过协同反思与精炼解锁创意表格可视化 / ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement

1️⃣ 一句话总结

这篇论文提出了一个名为ShowTable的新方法，它通过让大语言模型和扩散模型协同工作，像‘设计师’和‘画师’一样反复沟通与修正，从而自动将枯燥的表格数据转换成既准确又美观的信息图表。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13604

arXiv 提交日期: 2025-12-15

video generation model training multi-modal world model long video generation temporal consistency autoregressive framework video benchmark

LongVie 2：多模态可控的超长视频世界模型 / LongVie 2: Multimodal Controllable Ultra-Long Video World Model

1️⃣ 一句话总结

这篇论文提出了一个名为LongVie 2的三阶段训练框架，通过融合多种控制信号、优化长时生成质量以及确保时间连贯性，能够生成高质量、可控且连贯的极长视频（最长可达5分钟），是构建视频世界模型的重要进展。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13592

arXiv 提交日期: 2025-12-15

model training computer vision aigc diffusion models sampling acceleration interactive generation consistency solver reinforcement learning

使用一致性求解器的图像扩散预览 / Image Diffusion Preview with Consistency Solver

1️⃣ 一句话总结

这篇论文提出了一种名为‘一致性求解器’的新方法，它能让AI图像生成模型先用很少的步骤快速生成预览图供用户确认，再完成精细绘制，从而将用户等待时间减少近一半，同时保证预览图与最终成图高度一致且质量不下降。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13689

arXiv 提交日期: 2025-12-15

computer vision model training machine learning 3d point cloud transformer architecture positional encoding neural architecture design efficiency optimization

LitePT：更轻便且更强大的点云Transformer / LitePT: Lighter Yet Stronger Point Transformer

1️⃣ 一句话总结

这篇论文提出了一种新的3D点云处理模型，它通过巧妙地在网络浅层使用卷积提取几何细节、在深层使用注意力机制捕捉语义信息，并引入一种无需训练的位置编码来保持空间结构，最终实现了模型参数量、运行速度和内存消耗的大幅降低，同时性能与当前最优模型相当甚至更优。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13586

arXiv 提交日期: 2025-12-15

llm model training natural language processing parallel decoding diffusion models autoregressive models efficiency kv caching

ReFusion：一种采用并行自回归解码的扩散大语言模型 / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

1️⃣ 一句话总结

这篇论文提出了一种名为ReFusion的新模型，它通过将并行解码从单个词元提升到更高级的‘片段’级别，并采用‘规划-填充’的两步解码策略，在保持高质量文本生成的同时，显著提升了生成速度，成功弥合了传统自回归模型与并行扩散模型之间的性能与效率鸿沟。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2512.13080

arXiv 提交日期: 2025-12-15

robotics multi-modal model training vision-language-action 3d spatial understanding visual-physical alignment robot learning pretraining

通过人类视频的视觉-物理对齐实现空间感知的视觉-语言-动作预训练 / Spatial-Aware VLA Pretraining through Visual-Physical Alignment from Human Videos

1️⃣ 一句话总结

这篇论文提出了一种新的预训练方法，通过利用人类视频将2D视觉信息与3D物理空间对齐，让机器人AI模型在正式学习任务前就具备三维空间理解能力，从而显著提升了机器人在真实环境中执行动作的准确性和适应性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2512.13683

1️⃣ 一句话总结

arXiv ID: 2512.13961

1️⃣ 一句话总结

arXiv ID: 2512.13660

1️⃣ 一句话总结

arXiv ID: 2512.13655

1️⃣ 一句话总结

arXiv ID: 2512.13303

1️⃣ 一句话总结

arXiv ID: 2512.13604

1️⃣ 一句话总结

arXiv ID: 2512.13592

1️⃣ 一句话总结

arXiv ID: 2512.13689

1️⃣ 一句话总结

arXiv ID: 2512.13586

1️⃣ 一句话总结

arXiv ID: 2512.13080

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2512.13683 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13961 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13660 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13655 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13303 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13604 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13592 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13689 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13586 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2512.13080 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2512.13683

arXiv ID: 2512.13961

arXiv ID: 2512.13660

arXiv ID: 2512.13655

arXiv ID: 2512.13303

arXiv ID: 2512.13604

arXiv ID: 2512.13592

arXiv ID: 2512.13689

arXiv ID: 2512.13586

arXiv ID: 2512.13080