网安资讯详情 - SecLens 情报雷达

网安资讯,一网打尽。汇集权威漏洞通告与行业要闻,结合分组浏览、智能过滤、RSS订阅 和 Webhook 推送,多通道拓展您的安全情报视野。

Fuzzing4LLM:撬动大语言模型的安全对齐机制

来源: vipread · 发布时间 2025-11-19 23:01 (UTC+08:00) · 抓取时间 2026-03-07 12:41 (UTC+08:00)

原文链接

摘要

本文链接 《Fuzzing4LLM:撬动大语言模型的安全对齐机制》由科大讯飞梅瑞提出,发布进化式越狱框架 ForgeDAN:通过字符-词-句多级扰动、场景假设/角色扮演变异与语义适应度评估,自动生成高隐蔽性对抗提示,在 DeepSeek、Qwen 等模型上攻陷率最高达 98%;并构建双维度判别器,精准区分拒绝/顺从与安全/有害输出,显著降低假阳性。报告同步给出覆盖越狱、投毒、跨模态、智能体等 20 + 场景的 AI 安全评测体系,以及多层防护、人机协同、数据全生命周期治理的主动防御方案,为大模型安全对齐提供从攻击到评测再到治理的完整闭环。

扩展字段

{
  "time_meta": {
    "applied_timezone": "UTC",
    "fallback": false,
    "raw": "Wed, 19 Nov 2025 15:01:04 +0000",
    "source": "item.pubDate"
  }
}