arXiv最新AI论文速览速学

🔍

aigc ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 39 72小时内新更新论文 72h更新 139 最新: Talking Slide Avatars: Open-Source Multimodal Communication Approach for Teaching 05-02

arXiv ID: 2603.14426

arXiv 提交日期: 2026-03-15

benchmark multi-modal aigc text-to-video retrieval ai-generated video state transitions temporal reasoning evaluation benchmark

GenState-AI：面向AI生成视频的文本-视频检索的状态感知数据集 / GenState-AI: State-Aware Dataset for Text-to-Video Retrieval on AI-Generated Videos

1️⃣ 一句话总结

这篇论文提出了一个名为GenState-AI的AI生成视频数据集，专门用于测试和诊断文本-视频检索模型是否真正理解视频中物体状态（如位置、数量）的精确变化，而不仅仅是匹配画面内容。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.14410

arXiv 提交日期: 2026-03-15

llm natural language processing aigc story generation monte carlo tree search plot planning long-form generation theme-driven generation

BiT-MCTS：一种基于主题的双向MCTS中文小说生成方法 / BiT-MCTS: A Theme-based Bidirectional MCTS Approach to Chinese Fiction Generation

1️⃣ 一句话总结

这篇论文提出了一种名为BiT-MCTS的新方法，它通过‘先定高潮，再双向扩展’的策略，帮助大语言模型根据开放主题生成结构更完整、情节更连贯、主题更深刻的长篇中文小说。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.11810

arXiv 提交日期: 2026-03-12

computer vision aigc model training 3d reconstruction object editing sdf networks explicit-implicit representation geometry disentanglement

CEI-3D：用于真实且细粒度物体编辑的协作式显式-隐式三维重建 / CEI-3D: Collaborative Explicit-Implicit 3D Reconstruction for Realistic and Fine-Grained Object Editing

1️⃣ 一句话总结

这篇论文提出了一种名为CEI-3D的新方法，它通过结合隐式三维模型和可局部操控的显式控制点，实现了对三维物体更真实、更精细的编辑，解决了现有方法编辑结果不自然、不细致的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.12267

arXiv 提交日期: 2026-03-12

video generation model training aigc video tokenization autoregressive generation adaptive compression computational efficiency quality-cost trade-off

EVATok：用于高效视觉自回归生成的自适应长度视频标记化框架 / EVATok: Adaptive Length Video Tokenization for Efficient Visual Autoregressive Generation

1️⃣ 一句话总结

这篇论文提出了一个名为EVATok的智能视频压缩框架，它能够根据视频内容的复杂程度动态分配压缩资源，在保证高质量视频重建和生成的同时，显著减少了计算开销，比现有方法平均节省了超过24%的存储或处理资源。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.10990

arXiv 提交日期: 2026-03-11

computer vision model evaluation aigc color fidelity text-to-image image generation evaluation metric realism calibration

过于鲜艳而不真实？生成式色彩保真度的基准测试与校准 / Too Vivid to Be Real? Benchmarking and Calibrating Generative Color Fidelity

1️⃣ 一句话总结

这篇论文针对当前文本生成图像模型在生成写实风格图片时颜色过于鲜艳失真的问题，提出了一个包含数据集、评估指标和优化方法的完整框架，旨在客观评估并提升生成图像的色彩真实感。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.09236

arXiv 提交日期: 2026-03-10

computer vision multi-modal aigc virtual try-off diffusion models garment reconstruction image synthesis structure constraint

BridgeDiff：连接人体观察与平面服装合成以实现虚拟试穿 / BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

1️⃣ 一句话总结

这篇论文提出了一个名为BridgeDiff的新方法，它通过两个互补模块有效弥合了穿着者图像与标准平面服装图之间的差异，从而在虚拟试穿任务中实现了更高质量、结构更稳定的服装重建。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08090

arXiv 提交日期: 2026-03-09

benchmark model evaluation aigc text-to-image generation subject-driven generation evaluation benchmark subject identity consistency hierarchical taxonomy

DSH-Bench：一个面向主体驱动文本到图像生成的、具有层次化主体分类的难度与场景感知基准 / DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

1️⃣ 一句话总结

这篇论文提出了一个名为DSH-Bench的新基准测试工具，它通过引入层次化主体分类、难度与场景评估维度以及更准确的评估指标，系统性地解决了现有主体驱动文生图模型在评估时面临的多样性不足、分析粒度粗糙和缺乏诊断指导等问题，并为未来模型优化指明了方向。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.08020

arXiv 提交日期: 2026-03-09

computer vision model training aigc shadow generation diffusion models image composition geometric consistency visibility prior

VSDiffusion：通过可见性约束扩散驯服不适定的阴影生成问题 / VSDiffusion: Taming Ill-Posed Shadow Generation via Visibility-Constrained Diffusion

1️⃣ 一句话总结

这篇论文提出了一个名为VSDiffusion的两阶段AI框架，它通过引入可见性先验来约束生成过程，从而为合成图像中的前景物体生成几何上更准确、更逼真的投射阴影。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.07776

arXiv 提交日期: 2026-03-08

computer vision aigc model training style transfer brushstroke rendering non-photorealistic rendering generative art parameterization

参数化笔触风格迁移 / Parameterized Brushstroke Style Transfer

1️⃣ 一句话总结

这篇论文提出了一种新的艺术风格迁移方法，它不再像传统方法那样直接修改图像的像素，而是通过模拟真实绘画中的笔触来生成图像，从而获得了更自然、更逼真的艺术效果。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.04980

arXiv 提交日期: 2026-03-05

multi-modal model training aigc autoregressive model next-token prediction image generation image editing multi-resolution

通过基础的下一个词元预测统一理解、生成与编辑的简单基线模型 / A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

1️⃣ 一句话总结

这篇论文提出了一个名为Wallaroo的简单自回归模型，它仅使用基础的下一个词元预测技术，就能同时处理多模态理解、图像生成和编辑任务，并在实验中展现出与现有统一模型相当甚至更优的性能。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2603.14426

1️⃣ 一句话总结

arXiv ID: 2603.14410

1️⃣ 一句话总结

arXiv ID: 2603.11810

1️⃣ 一句话总结

arXiv ID: 2603.12267

1️⃣ 一句话总结

arXiv ID: 2603.10990

1️⃣ 一句话总结

arXiv ID: 2603.09236

1️⃣ 一句话总结

arXiv ID: 2603.08090

1️⃣ 一句话总结

arXiv ID: 2603.08020

1️⃣ 一句话总结

arXiv ID: 2603.07776

1️⃣ 一句话总结

arXiv ID: 2603.04980

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2603.14426 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.14410 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.11810 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.12267 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.10990 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.09236 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08090 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.08020 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.07776 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.04980 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2603.14426

arXiv ID: 2603.14410

arXiv ID: 2603.11810

arXiv ID: 2603.12267

arXiv ID: 2603.10990

arXiv ID: 2603.09236

arXiv ID: 2603.08090

arXiv ID: 2603.08020

arXiv ID: 2603.07776

arXiv ID: 2603.04980