潜在对抗检测:基于大模型激活自适应探测的多轮攻击检测
摘要
作者:Prashant Kulkarni 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2604.28129v1 摘要 多轮提示注入遵循建立信任—话题转向—恶意升级的固定攻击路径,但文本层防御手段无法识别单轮对话看似无害的隐蔽攻击。本文发现,该攻击路径会在模型残差流中留下可识别的激活层特征:攻击每个阶段的切换都会引发激活向量偏移,最终累积路径长度远超正常...
标签
- source:seebug
- type:paper
扩展字段
{
"guid": "https://paper.seebug.org/3486"
}