Fuzzing4LLM：撬动大语言模型的安全对齐机制

来源： vipread · 发布时间 2025-11-19 23:01 (UTC+08:00) · 抓取时间 2026-03-07 12:41 (UTC+08:00)

摘要

本文链接《Fuzzing4LLM：撬动大语言模型的安全对齐机制》由科大讯飞梅瑞提出，发布进化式越狱框架 ForgeDAN：通过字符-词-句多级扰动、场景假设/角色扮演变异与语义适应度评估，自动生成高隐蔽性对抗提示，在 DeepSeek、Qwen 等模型上攻陷率最高达 98%；并构建双维度判别器，精准区分拒绝/顺从与安全/有害输出，显著降低假阳性。报告同步给出覆盖越狱、投毒、跨模态、智能体等 20 + 场景的 AI 安全评测体系，以及多层防护、人机协同、数据全生命周期治理的主动防御方案，为大模型安全对齐提供从攻击到评测再到治理的完整闭环。

扩展字段

{
  "time_meta": {
    "applied_timezone": "UTC",
    "fallback": false,
    "raw": "Wed, 19 Nov 2025 15:01:04 +0000",
    "source": "item.pubDate"
  }
}