arXiv最新AI论文速览速学

🔍

multi-modal ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 35 72小时内新更新论文 72h更新 162 最新: Vib2ECG: A Paired Chest-Lead SCG-ECG Dataset and Benchmark for ECG Reconstruction 03-23

arXiv ID: 2601.22093

arXiv 提交日期: 2026-01-29

multi-modal model evaluation aigc social bias associational bias inter-model communication demographic drift image generation

探究大型生成模型间通信中的关联性偏见 / Investigating Associational Biases in Inter-Model Communication of Large Generative Models

1️⃣ 一句话总结

这项研究发现，在图像生成和描述交替进行的AI模型间通信中，模型会学习并传播关于人种、性别和年龄的刻板关联，导致下游任务（如识别人类活动和情绪）出现系统性偏见，并提出了相应的缓解策略。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20367

arXiv 提交日期: 2026-01-28

multi-modal agents model evaluation anomaly detection trajectory prediction transformer autonomous driving safety evaluation

基于Transformer模型的多智能体轨迹预测无监督异常检测 / Unsupervised Anomaly Detection in Multi-Agent Trajectory Prediction via Transformer-Based Models

1️⃣ 一句话总结

这篇论文提出了一种基于Transformer的无监督异常检测框架，用于自动驾驶场景中识别传统方法难以捕捉的复杂多智能体交互风险，并通过双重评估验证了其检测结果的稳定性和物理危险性相关性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20911

arXiv 提交日期: 2026-01-28

multi-modal model training agents conversational image generation multimodal llms non-markov history multi-round consistency personalization

基于历史条件化多模态大语言模型的非马尔可夫多轮对话式图像生成 / Non-Markov Multi-Round Conversational Image Generation with History-Conditioned MLLMs

1️⃣ 一句话总结

这篇论文提出了一种新的多轮对话图像生成方法，通过构建非马尔可夫交互数据、采用历史条件化训练框架，有效解决了用户在多轮对话中回指、撤销或跨轮引用实体时模型容易遗忘历史信息的问题，显著提升了生成图像在多轮对话中的一致性和指令遵循能力。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20720

arXiv 提交日期: 2026-01-28

computer vision multi-modal robotics autonomous driving sensor fusion trajectory prediction end-to-end learning 3d perception

Li-ViP3D++：用于端到端感知与轨迹预测的查询门控可变形相机-激光雷达融合方法 / Li-ViP3D++: Query-Gated Deformable Camera-LiDAR Fusion for End-to-End Perception and Trajectory Prediction

1️⃣ 一句话总结

这篇论文提出了一种名为Li-ViP3D++的新型自动驾驶模型，它通过一种智能的‘查询门控’融合技术，将摄像头和激光雷达的数据在统一框架下进行自适应结合，从而在一个模型中同时完成物体检测、跟踪和轨迹预测，不仅性能更好、错误更少，而且运行速度也更快。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.21028

arXiv 提交日期: 2026-01-28

aigc natural language processing multi-modal ai-generated content sexual content creator motivations ethics non-consensual imagery

“探索与实验的无尽领域”：AI生成性内容创作者的方法与动机 / "Unlimited Realm of Exploration and Experimentation": Methods and Motivations of AI-Generated Sexual Content Creators

1️⃣ 一句话总结

本研究通过对28位AI生成性内容创作者的访谈，首次系统揭示了他们从性探索、艺术创作到技术实验的多元动机，以及其中少数涉及非自愿亲密图像的制作，为理解这一新兴领域并制定有效治理政策提供了关键见解。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20618

arXiv 提交日期: 2026-01-28

natural language processing multi-modal llm sarcasm detection multimodal fusion semantic discrepancy mllm image-text analysis

GDCNet：用于多模态讽刺检测的生成式差异比较网络 / GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection

1️⃣ 一句话总结

这篇论文提出了一种名为GDCNet的新方法，它通过利用多模态大模型生成的客观图像描述作为稳定参照，来精确比较图像与文本之间的语义和情感差异，从而更准确、更鲁棒地检测出图文内容中的讽刺意味。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20622

arXiv 提交日期: 2026-01-28

multi-modal aigc computer vision sketch-based interaction animation generation intent expression human-ai collaboration video refinement

SketchDynamics：探索自由手绘草图在动画生成中表达动态意图 / SketchDynamics: Exploring Free-Form Sketches for Dynamic Intent Expression in Animation Generation

1️⃣ 一句话总结

这篇论文提出了一种新的交互方式，让用户通过自由手绘草图来向AI模型直观地表达动画的动态意图（比如物体如何运动和变化），并通过用户研究发现，这种结合草图和AI交互的方法能有效弥合创作意图与最终动画效果之间的差距。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20552

arXiv 提交日期: 2026-01-28

computer vision multi-modal model training optical character recognition visual token reordering causal reasoning vision-language models image understanding

DeepSeek-OCR 2：视觉因果流 / DeepSeek-OCR 2: Visual Causal Flow

1️⃣ 一句话总结

这篇论文提出了一种模仿人类视觉感知方式的新型图像编码器，它能够根据图像内容智能地重新排列视觉信息，再交给大语言模型处理，为理解复杂图像提供了一种新思路。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.20028

arXiv 提交日期: 2026-01-27

multi-modal model training machine learning sparse autoencoders representation learning multimodal alignment clip interpretability

利用组稀疏自编码器分解多模态嵌入空间 / Decomposing multimodal embedding spaces with group-sparse autoencoders

1️⃣ 一句话总结

这篇论文提出了一种改进的稀疏自编码器方法，通过跨模态随机掩码和组稀疏正则化技术，成功地将图像/文本或音频/文本等混合数据的嵌入表示分解为更统一、更易于人类理解的高层概念特征，从而提升了多模态任务的可解释性和可控性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.19717

arXiv 提交日期: 2026-01-27

computer vision multi-modal model training 3d style transfer gaussian splatting attention optimization multi-view consistency diffusion models

DiffStyle3D：通过注意力优化实现一致的3D高斯风格化 / DiffStyle3D: Consistent 3D Gaussian Stylization via Attention Optimization

1️⃣ 一句话总结

这篇论文提出了一种名为DiffStyle3D的新方法，它通过直接优化扩散模型的注意力空间，并结合几何信息来保持多视角一致性，从而解决了现有3D风格迁移技术中风格不一致和训练不稳定的问题，能生成更高质量、更逼真的3D风格化内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2601.22093

1️⃣ 一句话总结

arXiv ID: 2601.20367

1️⃣ 一句话总结

arXiv ID: 2601.20911

1️⃣ 一句话总结

arXiv ID: 2601.20720

1️⃣ 一句话总结

arXiv ID: 2601.21028

1️⃣ 一句话总结

arXiv ID: 2601.20618

1️⃣ 一句话总结

arXiv ID: 2601.20622

1️⃣ 一句话总结

arXiv ID: 2601.20552

1️⃣ 一句话总结

arXiv ID: 2601.20028

1️⃣ 一句话总结

arXiv ID: 2601.19717

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2601.22093 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20367 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20911 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20720 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.21028 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20618 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20622 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20552 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.20028 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.19717 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2601.22093

arXiv ID: 2601.20367

arXiv ID: 2601.20911

arXiv ID: 2601.20720

arXiv ID: 2601.21028

arXiv ID: 2601.20618

arXiv ID: 2601.20622

arXiv ID: 2601.20552

arXiv ID: 2601.20028

arXiv ID: 2601.19717