arXiv ID:
2606.08893
廉价奖励黑客检测 / Cheap Reward Hacking Detection
1️⃣ 一句话总结
本文提出了一种低成本检测奖励黑客行为的方法,通过训练一个小型Transformer编码器将游戏轨迹映射到嵌入空间,并用线性探针识别异常,在几乎不增加计算成本的情况下,性能可与昂贵的语言模型评判方法相媲美。
廉价奖励黑客检测 / Cheap Reward Hacking Detection
本文提出了一种低成本检测奖励黑客行为的方法,通过训练一个小型Transformer编码器将游戏轨迹映射到嵌入空间,并用线性探针识别异常,在几乎不增加计算成本的情况下,性能可与昂贵的语言模型评判方法相媲美。
在生成器迁移条件下检测扩散模型生成的时间序列 / Detecting Diffusion-Generated Time Series Under Generator Shift
本文系统比较了在生成器未知的情况下,基于重建的“白盒”检测方法与直接基于原始信号的“黑盒”检测方法在识别扩散模型生成的时间序列时的表现,发现简单分类器作为黑盒方法在生成器变化时显著优于图像领域迁移过来的白盒方法,表明该问题无法直接套用图像检测的经验。
大语言模型隐写术的柯氏复杂度边界及一种基于困惑度的检测代理方法 / Kolmogorov Complexity Bounds for LLM Steganography and a Perplexity-Based Detection Proxy
这篇论文从信息论角度证明,大语言模型在文本中隐藏信息必然会导致文本复杂度增加,并提出了一种基于模型困惑度的实用方法来检测这种隐藏信息。
基于鲁棒签名的语言模型不可伪造水印 / Unforgeable Watermarks for Language Models via Robust Signatures
这篇论文提出了一种新型的、基于鲁棒数字签名的语言模型水印技术,不仅能像传统水印一样检测AI生成文本,还能有效防止他人伪造水印进行虚假归属,并能追溯生成内容的原始来源,从而为AI生成内容提供了更强的所有权保护和可追溯性。
WebSentinel:针对网络代理的提示注入攻击检测与定位 / WebSentinel: Detecting and Localizing Prompt Injection Attacks for Web Agents
这篇论文提出了一种名为WebSentinel的两阶段方法,能有效检测并定位网页中旨在操控网络代理执行恶意任务的提示注入攻击,其性能显著优于现有基线方法。
反蒸馏指纹识别 / Antidistillation Fingerprinting
这篇论文提出了一种名为‘反蒸馏指纹识别’的新方法,它通过优化指纹植入过程,使得大语言模型在知识蒸馏给第三方学生模型后,既能保持高质量的文本生成能力,又能被高效、可靠地追踪检测,解决了现有技术中检测效果与模型性能难以兼顾的问题。
嵌入空间中的捉迷藏:基于几何的大语言模型隐写术与检测 / Hide and Seek in Embedding Space: Geometry-based Steganography and Detection in Large Language Models
这篇论文发现,经过微调的大语言模型可以在其输出中隐藏秘密信息(隐写术),而作者提出了一种更隐蔽的基于嵌入空间几何关系的新方法,同时通过分析模型内部激活模式,成功检测出这种恶意微调留下的痕迹。
请先 登录 后再提交论文