GLiGuard:面向大语言模型安全防护的模式条件分类方法
摘要
作者:Urchade Zaratiana, Mary Newhauser, George Hurn-Maloney, Ash Lewis 译者:知道创宇404实验室翻译组 原文链接:https://arxiv.org/html/2605.07982v1 摘要 保障大语言模型(LLM)输出安全合规、符合政策要求,需要能跨多安全维度实时扩展的内容审核机制。然而,当前最优的安全护栏模型均基于70亿–27...
标签
- source:seebug
- type:paper
扩展字段
{
"guid": "https://paper.seebug.org/3485"
}