Fuzzing4LLM:撬动大语言模型的安全对齐机制
摘要
本文链接 《Fuzzing4LLM:撬动大语言模型的安全对齐机制》由科大讯飞梅瑞提出,发布进化式越狱框架 ForgeDAN:通过字符-词-句多级扰动、场景假设/角色扮演变异与语义适应度评估,自动生成高隐蔽性对抗提示,在 DeepSeek、Qwen 等模型上攻陷率最高达 98%;并构建双维度判别器,精准区分拒绝/顺从与安全/有害输出,显著降低假阳性。报告同步给出覆盖越狱、投毒、跨模态、智能体等 20 + 场景的 AI 安全评测体系,以及多层防护、人机协同、数据全生命周期治理的主动防御方案,为大模型安全对齐提供从攻击到评测再到治理的完整闭环。
扩展字段
{
"time_meta": {
"applied_timezone": "UTC",
"fallback": false,
"raw": "Wed, 19 Nov 2025 15:01:04 +0000",
"source": "item.pubDate"
}
}