arXiv最新AI论文速览速学

🔍

标签: #detection ✕ 清除筛选

搜索范围：

全部标题和内容仅标签

🏷️ 所有标签

24小时内新更新论文 24h更新 88 72小时内新更新论文 72h更新 188 最新: Cheap Reward Hacking Detection 06-09

arXiv ID: 2606.08893

arXiv 提交日期: 2026-06-08

reinforcement learning llm machine learning reward hacking detection trajectory embedding linear probe cost efficiency

廉价奖励黑客检测 / Cheap Reward Hacking Detection

1️⃣ 一句话总结

本文提出了一种低成本检测奖励黑客行为的方法，通过训练一个小型Transformer编码器将游戏轨迹映射到嵌入空间，并用线性探针识别异常，在几乎不增加计算成本的情况下，性能可与昂贵的语言模型评判方法相媲美。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2605.28355

arXiv 提交日期: 2026-05-27

machine learning data model evaluation diffusion models time series generator shift detection white-box vs black-box

在生成器迁移条件下检测扩散模型生成的时间序列 / Detecting Diffusion-Generated Time Series Under Generator Shift

1️⃣ 一句话总结

本文系统比较了在生成器未知的情况下，基于重建的“白盒”检测方法与直接基于原始信号的“黑盒”检测方法在识别扩散模型生成的时间序列时的表现，发现简单分类器作为黑盒方法在生成器变化时显著优于图像领域迁移过来的白盒方法，表明该问题无法直接套用图像检测的经验。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2603.21567

arXiv 提交日期: 2026-03-23

llm theory natural language processing steganography kolmogorov complexity perplexity detection information theory

大语言模型隐写术的柯氏复杂度边界及一种基于困惑度的检测代理方法 / Kolmogorov Complexity Bounds for LLM Steganography and a Perplexity-Based Detection Proxy

1️⃣ 一句话总结

这篇论文从信息论角度证明，大语言模型在文本中隐藏信息必然会导致文本复杂度增加，并提出了一种基于模型困惑度的实用方法来检测这种隐藏信息。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.15323

arXiv 提交日期: 2026-02-17

llm natural language processing model evaluation watermarking content provenance digital signatures security detection

基于鲁棒签名的语言模型不可伪造水印 / Unforgeable Watermarks for Language Models via Robust Signatures

1️⃣ 一句话总结

这篇论文提出了一种新型的、基于鲁棒数字签名的语言模型水印技术，不仅能像传统水印一样检测AI生成文本，还能有效防止他人伪造水印进行虚假归属，并能追溯生成内容的原始来源，从而为AI生成内容提供了更强的所有权保护和可追溯性。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03792

arXiv 提交日期: 2026-02-03

llm agents systems prompt injection web agents adversarial attacks security detection

WebSentinel：针对网络代理的提示注入攻击检测与定位 / WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents

1️⃣ 一句话总结

这篇论文提出了一种名为WebSentinel的两阶段方法，能有效检测并定位网页中旨在操控网络代理执行恶意任务的提示注入攻击，其性能显著优于现有基线方法。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2602.03812

arXiv 提交日期: 2026-02-03

llm model training model evaluation model distillation fingerprinting detection watermarking fine-tuning

反蒸馏指纹识别 / Antidistillation Fingerprinting

1️⃣ 一句话总结

这篇论文提出了一种名为‘反蒸馏指纹识别’的新方法，它通过优化指纹植入过程，使得大语言模型在知识蒸馏给第三方学生模型后，既能保持高质量的文本生成能力，又能被高效、可靠地追踪检测，解决了现有技术中检测效果与模型性能难以兼顾的问题。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv ID: 2601.22818

arXiv 提交日期: 2026-01-30

llm model training security steganography fine-tuning detection embedding space mechanistic interpretability

嵌入空间中的捉迷藏：基于几何的大语言模型隐写术与检测 / Hide and Seek in Embedding Space: Geometry-based Steganography and Detection in Large Language Models

1️⃣ 一句话总结

这篇论文发现，经过微调的大语言模型可以在其输出中隐藏秘密信息（隐写术），而作者提出了一种更隐蔽的基于嵌入空间几何关系的新方法，同时通过分析模型内部激活模式，成功检测出这种恶意微调留下的痕迹。

👋 没兴趣 ☆ 感兴趣

📌 待读 PDF

arXiv最新AI论文速览速学

菜单

arXiv ID: 2606.08893

1️⃣ 一句话总结

arXiv ID: 2605.28355

1️⃣ 一句话总结

arXiv ID: 2603.21567

1️⃣ 一句话总结

arXiv ID: 2602.15323

1️⃣ 一句话总结

arXiv ID: 2602.03792

1️⃣ 一句话总结

arXiv ID: 2602.03812

1️⃣ 一句话总结

arXiv ID: 2601.22818

1️⃣ 一句话总结

📄 提交新论文

提交新论文

密码管理

设置密码

修改密码

移除密码

菜单

热门趋势

arXiv ID: 2606.08893 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2605.28355 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2603.21567 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.15323 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03792 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2602.03812 👀 Abstract

1️⃣ 一句话总结

arXiv ID: 2601.22818 👀 Abstract

1️⃣ 一句话总结

获取最新论文摘要

📄 提交新论文

需要登录

提交新论文

需要登录

arXiv ID: 2606.08893

arXiv ID: 2605.28355

arXiv ID: 2603.21567

arXiv ID: 2602.15323

arXiv ID: 2602.03792

arXiv ID: 2602.03812

arXiv ID: 2601.22818