上下文表示劫持 / In-Context Representation Hijacking
1️⃣ 一句话总结
这篇论文提出了一种名为‘Doublespeak’的简单攻击方法,通过在多轮对话示例中系统性地将有害词汇(如‘炸弹’)替换为无害词汇(如‘胡萝卜’),使得大语言模型在内部将无害词汇的语义理解为有害内容,从而绕过模型的安全防护机制。
请先 登录 后再提交论文
上下文表示劫持 / In-Context Representation Hijacking
这篇论文提出了一种名为‘Doublespeak’的简单攻击方法,通过在多轮对话示例中系统性地将有害词汇(如‘炸弹’)替换为无害词汇(如‘胡萝卜’),使得大语言模型在内部将无害词汇的语义理解为有害内容,从而绕过模型的安全防护机制。
QKAN-LSTM:量子启发的Kolmogorov-Arnold长短期记忆网络 / QKAN-LSTM: Quantum-inspired Kolmogorov-Arnold Long Short-term Memory
这篇论文提出了一种名为QKAN-LSTM的新型循环神经网络,它通过引入量子启发的激活模块,在保持经典硬件可运行的同时,大幅提升了模型对复杂时间序列的预测能力,并减少了近80%的训练参数。
类比推理的奇特案例:探究大语言模型中的类比推理能力 / The Curious Case of Analogies: Investigating Analogical Reasoning in Large Language Models
这篇论文研究发现,大语言模型虽然能在一定程度上编码和运用高级关系概念进行类比推理,但其能力仍有限,尤其在将已知关系应用到新情境时存在困难,这与人类的认知方式既有相似之处也存在明显差距。
SR-GRPO:将稳定秩作为大语言模型对齐的内在几何奖励 / SR-GRPO: Stable Rank as an Intrinsic Geometric Reward for Large Language Model Alignment
这篇论文提出了一种名为‘稳定秩’的新方法,它通过分析模型内部表示的空间结构来自动评估输出质量,并以此作为奖励信号来优化大语言模型,无需依赖人工标注或外部奖励模型,就能有效提升模型在数学推理等任务上的表现。
非结构化数据流形特征结构学习 / Learning Eigenstructures of Unstructured Data Manifolds
这篇论文提出了一种无需预先构建和离散化传统算子的新方法,它通过训练神经网络直接从非结构化数据中学习出类似于拉普拉斯算子的特征基,为几何处理提供了一种数据驱动的统一解决方案。
SCALE:通过选择性资源分配克服数学测试时扩展中的性能瓶颈 / SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling
这篇论文提出了一种名为SCALE的新方法,它像一位聪明的项目经理,在大型语言模型解决数学问题时,能自动识别并集中计算资源去攻克难题,而不是平均分配,从而在显著提升解题准确率的同时,大幅降低了计算成本。
ORION:教导语言模型以思维语言进行高效推理 / ORION: Teaching Language Models to Reason Efficiently in the Language of Thought
这篇论文提出了一个名为ORION的新框架,它通过训练模型使用一种类似人类‘思维语言’的压缩、结构化符号进行推理,从而在保持高准确率的同时,大幅减少了计算所需的步骤和成本,实现了更高效、更快速的AI推理。
DeepSeekMath-V2:迈向可自我验证的数学推理 / DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning
这篇论文提出了一个名为DeepSeekMath-V2的新模型,它通过让AI自己检查和验证推理过程来解决数学问题,而不是只追求最终答案正确,从而在需要严格逻辑推导的数学竞赛中取得了顶尖成绩。
从优化视角修正大语言模型的思维过程 / Rectifying LLM Thought from Lens of Optimization
这篇论文提出了一种名为RePro的新方法,通过将大语言模型的推理过程看作优化步骤,并设计一个评估推理过程质量的奖励机制,来训练模型避免过度思考和冗长推理,从而提升其在数学、科学和编程等任务上的表现。
对齐三难困境:RLHF系统的根本限制 / Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma
本文形式化提出了'对齐三难困境',指出任何基于人类反馈的强化学习系统都无法同时实现三个理想目标:全面代表多样化人类价值观、计算可处理性以及抗干扰鲁棒性。