网安资讯详情 - SecLens 情报雷达

网安资讯,一网打尽。汇集权威漏洞通告与行业要闻,结合分组浏览、智能过滤、RSS订阅 和 Webhook 推送,多通道拓展您的安全情报视野。

潜在对抗检测:基于大模型激活自适应探测的多轮攻击检测

来源: seebug_paper_rss · 发布时间 2026-05-25 16:55 (UTC+08:00) · 抓取时间 2026-06-04 08:55 (UTC+08:00)

原文链接

摘要

作者:Prashant Kulkarni 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2604.28129v1 摘要 多轮提示注入遵循建立信任—话题转向—恶意升级的固定攻击路径,但文本层防御手段无法识别单轮对话看似无害的隐蔽攻击。本文发现,该攻击路径会在模型残差流中留下可识别的激活层特征:攻击每个阶段的切换都会引发激活向量偏移,最终累积路径长度远超正常...

标签

扩展字段

{
  "guid": "https://paper.seebug.org/3486"
}