潜在对抗检测：基于大模型激活自适应探测的多轮攻击检测

来源： seebug_paper_rss · 发布时间 2026-05-25 16:55 (UTC+08:00) · 抓取时间 2026-06-04 08:55 (UTC+08:00)

摘要

作者：Prashant Kulkarni 译者：知道创宇404实验室翻译组原文链接：https://arxiv.org/html/2604.28129v1 摘要多轮提示注入遵循建立信任—话题转向—恶意升级的固定攻击路径，但文本层防御手段无法识别单轮对话看似无害的隐蔽攻击。本文发现，该攻击路径会在模型残差流中留下可识别的激活层特征：攻击每个阶段的切换都会引发激活向量偏移，最终累积路径长度远超正常...

扩展字段

{
  "guid": "https://paper.seebug.org/3486"
}

网安资讯详情 - SecLens 情报雷达

潜在对抗检测：基于大模型激活自适应探测的多轮攻击检测

摘要

标签

扩展字段