arXiv最新AI论文速览速学

🔍

标签: #temporal alignment ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 100 72小时内新更新论文 72h更新 100 最新: ATLAS: An Annotation Tool for Long-horizon Robotic Action Segmentation 04-30

arXiv ID: 2604.26637

arXiv 提交日期: 2026-04-29

robotics systems model training annotation tool action segmentation multi-modal temporal alignment dataset format

ATLAS：面向长时程机器人动作分割的标注工具 / ATLAS: An Annotation Tool for Long-horizon Robotic Action Segmentation

1️⃣ 一句话总结

本文提出了一种专门为长时程机器人操作任务设计的标注工具ATLAS，它能同步显示多视角视频和力、夹爪状态等传感器信号，支持多种主流机器人数据集格式，并通过快捷键操作将动作标注时间平均缩短6%以上，同时显著提升了标注边界与专家标注的一致性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.15377

arXiv 提交日期: 2026-04-15

computer vision multi-modal systems precipitation nowcasting multimodal attention radar imagery weather prediction temporal alignment

M3R：基于气象信息多模态注意力的局地降雨临近预报 / M3R: Localized Rainfall Nowcasting with Meteorology-Informed MultiModal Attention

1️⃣ 一句话总结

这篇论文提出了一个名为M3R的新模型，它通过一种创新的多模态注意力机制，巧妙地结合了气象雷达图像和地面气象站数据，从而更准确、高效地预测未来短时间内的局地降雨，为灾害预警提供了更强大的工具。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.12159

arXiv 提交日期: 2026-04-14

computer vision multi-modal systems video geolocalization gps retrieval temporal alignment dual-encoder self-supervised learning

VidTAG：基于去噪序列预测的全球尺度时间对齐视频到GPS地理定位 / VidTAG: Temporally Aligned Video to GPS Geolocalization with Denoising Sequence Prediction at a Global Scale

1️⃣ 一句话总结

这篇论文提出了一个名为VidTAG的新方法，它通过结合自监督和语言对齐特征，并引入专门模块来处理视频帧的时间对齐问题，从而能够更精确、更一致地从视频中推断出拍摄地点的GPS坐标和运动轨迹，在全球范围内实现了比现有方法更优的细粒度视频地理定位。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2604.08161

arXiv 提交日期: 2026-04-09

medical machine learning model training non-negative matrix factorization neuroimaging emission tomography temporal alignment signal processing

用于发射断层扫描数据中脑组织描绘的平移与拉伸不变非负矩阵分解 / Shift- and stretch-invariant non-negative matrix factorization with an application to brain tissue delineation in emission tomography data

1️⃣ 一句话总结

这篇论文提出了一种新的非负矩阵分解方法，能够自动校正数据中因扩散效应引起的时间延迟和拉伸变形，从而在脑部发射断层扫描数据中更精确地描绘出脑组织的结构细节。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.21803

arXiv 提交日期: 2026-03-23

multi-modal natural language processing computer vision multimodal dataset comedic timing laughter detection gesture analysis temporal alignment

单口喜剧的时机：文本、音频、笑声与动作学（TIC-TALK）：用于喜剧时机多模态研究的流程与数据库 / Timing In stand-up Comedy: Text, Audio, Laughter, Kinesics (TIC-TALK): Pipeline and Database for the Multimodal Study of Comedic Timing

1️⃣ 一句话总结

这篇论文创建了一个名为TIC-TALK的多模态数据库和分析工具，通过自动分析90场单口喜剧表演中的语言、动作和观众笑声，揭示了喜剧表演中‘抖包袱’前演员动作会变少、个人话题比政治话题更能引发笑声等规律。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.18600

arXiv 提交日期: 2026-03-19

multi-modal model training audio audio-video generation cross-modal learning diffusion models temporal alignment transformer architecture

通过跨模态上下文学习改进音视频联合生成 / Improving Joint Audio-Video Generation with Cross-Modal Context Learning

1️⃣ 一句话总结

这篇论文提出了一种名为跨模态上下文学习的新方法，通过改进音视频特征的对齐和交互机制，解决了现有联合生成模型中的同步偏差和训练不稳定问题，从而用更少的资源生成了更高质量且同步的音视频内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.05255

arXiv 提交日期: 2026-03-05

multi-modal agents systems cooperative perception multi-agent systems temporal alignment feature denoising adaptive fusion

CATNet：用于协同感知的协作对齐与转换网络 / CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

1️⃣ 一句话总结

这篇论文提出了一个名为CATNet的自适应补偿框架，通过同步异步数据、抑制噪声和动态选择关键特征，有效解决了多智能体协同感知中因高延迟和噪声干扰导致的信息融合难题，显著提升了复杂交通场景下的感知鲁棒性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.19163

arXiv 提交日期: 2026-02-22

aigc multi-modal model training audio-video generation diffusion transformer preference optimization temporal alignment mixture-of-experts

JavisDiT++：面向联合音视频生成的统一建模与优化 / JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

1️⃣ 一句话总结

这篇论文提出了一个名为JavisDiT++的新框架，它通过创新的专家混合模块、时序对齐技术和人类偏好优化方法，显著提升了根据文字描述同时生成高质量、音画同步视频的能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.08395

arXiv 提交日期: 2026-02-09

video model training computer vision video restoration diffusion models temporal alignment knowledge distillation adversarial training

D^2-VR：基于协同优化策略的、抗退化且经过蒸馏的视频修复方法 / D$^2$-VR: Degradation-Robust and Distilled Video Restoration with Synergistic Optimization Strategy

1️⃣ 一句话总结

这篇论文提出了一种名为D^2-VR的新方法，它通过设计抗退化的运动对齐模块和采用对抗性蒸馏技术，在保证视频修复高质量的同时，将处理速度大幅提升了12倍，有效解决了现有方法速度慢且面对复杂画面退化时效果不稳定的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.14250

arXiv 提交日期: 2026-01-20

video generation multi-modal model training video transfer spatio-temporal unified framework temporal alignment multimodal guidance

OmniTransfer：时空视频迁移的一体化框架 / OmniTransfer: All-in-one Framework for Spatio-temporal Video Transfer

1️⃣ 一句话总结

这篇论文提出了一个名为OmniTransfer的统一框架，它能够利用视频中的时空信息，灵活高效地完成外观（如身份、风格）和时序（如摄像机运动、特效）等多种视频迁移任务，无需依赖特定任务先验知识即可实现高质量的视频生成。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2604.26637

1️⃣ 一句话总结

arXiv ID: 2604.15377

1️⃣ 一句话总结

arXiv ID: 2604.12159

1️⃣ 一句话总结

arXiv ID: 2604.08161

1️⃣ 一句话总结

arXiv ID: 2603.21803

1️⃣ 一句话总结

arXiv ID: 2603.18600

1️⃣ 一句话总结

arXiv ID: 2603.05255

1️⃣ 一句话总结

arXiv ID: 2602.19163

1️⃣ 一句话总结

arXiv ID: 2602.08395

1️⃣ 一句话总结

arXiv ID: 2601.14250

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2604.26637 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.15377 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.12159 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2604.08161 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.21803 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.18600 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.05255 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.19163 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.08395 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.14250 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2604.26637

arXiv ID: 2604.15377

arXiv ID: 2604.12159

arXiv ID: 2604.08161

arXiv ID: 2603.21803

arXiv ID: 2603.18600

arXiv ID: 2603.05255

arXiv ID: 2602.19163

arXiv ID: 2602.08395

arXiv ID: 2601.14250