arXiv最新AI论文速览速学

📄

提交新论文

AI论文阅读

搜索范围：

所有标签

📄

2508.21052

🤖 系统

09-01 15:51

local deepfakes video manipulation detection benchmark dataset vlm automation partial forgery

📄 论文总结

FakeParts：一种新型局部深度伪造类别及其基准测试

FakeParts: A Novel Category of Local Deepfakes and Its Benchmark

1️⃣ 一句话总结

本文提出并定义了FakeParts这一新型局部深度伪造类别，其通过对真实视频的特定空间区域或时间片段进行细微篡改以实现高度欺骗性，并构建了首个大规模基准数据集FakePartsBench以评估和推动针对此类篡改的检测方法发展。

2️⃣ 论文创新点

1. FakeParts局部深度伪造类别

创新点是什么：定义了一种新型深度伪造，专注于对真实视频内容进行局部、细微的操作（如修改面部表情、替换物体、改变背景或操纵单帧），而非生成完全合成的视频。
与已有方法的区别/改进：相比传统深度伪造，FakeParts能更无缝地融合真实与伪造内容，欺骗性极强，导致人类检测准确率下降30%以上。
为什么有意义：揭示了当前深度伪造检测方法的重大盲点，强调了检测系统应对局部操作的脆弱性。

2. FakePartsBench基准数据集

创新点是什么：构建了首个专门针对局部深度伪造的大规模基准数据集，包含超过25,000个视频片段，覆盖从传统换脸到最先进生成模型（如Sora, Veo2）输出的多种操作技术。
与已有方法的区别/改进：提供了像素级和帧级的精细空间与时间操作标注，弥补了现有数据集（如VidProM, GenVidBench）仅关注全合成视频的不足。
为什么有意义：为开发更强大的局部视频操作检测方法提供了必要资源，填补了现有数据集的空白，并能更真实地反映现实世界的伪造场景。

3. 系统化数据构建框架与VLM自动化流程

创新点是什么：提出了一个系统性的深度伪造视频基准数据集构建流程，明确区分完全伪造和部分伪造（FakeParts），并将后者细分为空间、时间和风格三个子类别。大规模集成视觉语言模型（VLMs）用于自动化提示词提取、待修复对象识别和内容过滤。
与已有方法的区别/改进：提供了一个更全面、更结构化的评估体系，能同时评估多种深度伪造技术，并减少了人工编写提示和标注的成本，提高了数据集构建的自动化程度和规模。
为什么有意义：为深度伪造检测和生成模型提供了更丰富、更贴近真实攻击场景的基准数据，并展示了VLMs在大型多模态数据集构建中的实用价值。

3️⃣ 主要结果与价值

实验结果亮点

人类检测FakeParts的准确率为75.3%，优于所有自动化方法，尤其在风格化生成内容上表现突出，但相比检测传统深度伪造，准确率下降了30%以上。
评估了多种图像级和视频级深度伪造检测器（如CNNDetection, UnivFD, DeMamba, AIGVDet），所有检测器在FakePartsBench基准测试中均出现显著性能下降，尤其是在扩散模型生成的内容上表现不佳。
发现非基础模型在完整合成内容上表现更好，而基于CLIP的基础模型在局部/精细伪造上泛化能力更强，但两者在处理高保真文本生成视频（T2V）内容时均存在短板，揭示了模型在不同伪造类型上的特征依赖权衡。

实际应用价值

FakePartsBench为评估下一代深度伪造检测模型提供了严格的评估标准，有助于推动开发更鲁棒的检测系统，特别是应对局部操作和最新模型输出的挑战。
研究结果对设计安全、可靠的媒体内容验证工具具有重要指导意义，有助于应对日益复杂的AI生成视频带来的安全威胁。
提出的数据集构建框架和自动化流程可为未来自动化生成多模态数据提供范例。

4️⃣ 术语表

FakeParts：一种新型深度伪造类别，特征是对真实视频的特定空间区域或时间片段进行局部细微篡改，而非生成完全合成的视频内容。在FakePartsBench数据集中特指部分深度伪造视频类别，可进一步细分为Spatial（空间）、Temporal（时间）和Style（风格）三个子集。
FakePartsBench：首个针对局部深度伪造（FakeParts）的大规模基准测试数据集，包含超过25,000个短视频片段，涵盖完整深度伪造和部分操纵（空间、时间、风格），使用包括Sora、Veo2在内的10个最先进模型生成，并提供精细粒度的标注。
Generative Adversarial Networks (GANs)：一种生成模型，通过对抗训练生成逼真图像，是早期深度伪造的主要技术。
扩散模型 (Diffusion Models)：一种能够生成高质量、多样化场景视频的生成模型，不同于仅限于面部区域的GAN生成视频，给检测带来新挑战。
DeMamba：一种基于Mamba架构的视频Deepfake检测方法，用于高效捕获时空不一致性。
视觉语言模型 (Visual Language Models, VLMs)：能够同时处理和理解视觉和文本信息的模型，在FakePartsBench的构建中用于自动化提示词提取和内容分析。

✓ 标记为已读 ☆ 收藏 📌 待读展开

📄 打开原文 PDF

📚 arXiv最新AI论文速览速学

菜单

提交新论文

2508.21052

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. FakeParts局部深度伪造类别

2. FakePartsBench基准数据集

3. 系统化数据构建框架与VLM自动化流程

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

密码管理

设置密码

修改密码

移除密码

菜单

提交新论文

需要登录

2508.21052 📝

📄 论文总结

1️⃣ 一句话总结

2️⃣ 论文创新点

1. FakeParts局部深度伪造类别

2. FakePartsBench基准数据集

3. 系统化数据构建框架与VLM自动化流程

3️⃣ 主要结果与价值

实验结果亮点

实际应用价值

4️⃣ 术语表

获取最新论文摘要

2508.21052