OpenAI今日发布了两款名为gpt-oss-safeguard-120b和gpt-oss-safeguard-20b的开放权重AI安全模型。这些模型基于GPT-OSS系列优化,采用Apache 2.0许可证开放,允许自由使用和修改。其核心亮点在于支持开发者根据自定义安全政策进行推理分类,而非采用“一刀切”的方式。开发者可输入自身政策和待检测内容,模型将依据政策进行分类并提供理由,政策可灵活调整以优化性能。该模型可用于分类用户消息、聊天回复及完整对话,尤其适用于政策需快速适应、领域细分复杂、缺乏大量标注样本或重视结果可解释性的场景。然而,其局限性在于处理速度较慢、资源消耗大,不适合大规模实时筛查,在标注样本充足的情况下,传统分类器在高风险场景下可能表现更优。
🛡️ **定制化安全策略分类**:OpenAI推出的gpt-oss-safeguard系列模型,允许开发者根据自身的安全政策来对AI生成的内容进行分类。这意味着不再是统一的标准,而是可以根据具体需求和场景,灵活定义和调整安全准则,从而实现更精细化的内容管理和风险控制。
🔄 **灵活适应性与可解释性**:这些新模型特别适合应对快速变化或高度细分的风险领域。政策可以根据实时情况进行调整,模型提供的推理理由也增强了分类结果的可解释性,有助于开发者理解模型决策过程,并进一步优化安全策略。
⚠️ **适用场景与局限性**:该模型尤其适用于需要快速适应政策变化、处理复杂细分领域、或缺乏大规模标注数据的场景。但需要注意的是,对于拥有大量标注样本且追求极致性能的场景,传统分类器可能表现更优,且新模型在处理速度和资源消耗方面存在一定局限,不适用于大规模实时筛查。
OpenAI今日宣布推出两款面向AI安全领域的新开放权重模型——gpt-oss-safeguard-120b和gpt-oss-safeguard-20b。这些安全分类模型是在此前发布的gpt-oss系列开放模型的基础上优化而来,并同样以Apache 2.0许可证开放,允许任何人自由使用、修改和部署。
新模型的最大特点,是为开发者提供了直接依据自定义安全政策进行推理分类的能力,摒弃了“一刀切”的安全系统。开发者可在推断时输入自己的安全政策和待检测内容,模型会基于政策作出分类,并给出推理理由。政策随用随更,可灵活调整以提升表现。gpt-oss-safeguard可对用户消息、聊天回复,甚至完整对话进行分类。
OpenAI指出,这类新模型尤其适合于以下几种情况:
需要注意的是,gpt-oss-safeguard也有一定局限。OpenAI表示,若平台拥有大量标注样本并能训练传统分类器,后者在复杂或高风险场景下仍可能优于gpt-oss-safeguard,定制化模型的精准度更高。此外,这种新模型处理速度较慢、资源消耗较大,不适合大规模内容实时筛查。


目前,gpt-oss-safeguard-120b和gpt-oss-safeguard-20b已可免费下载:
https://huggingface.co/collections/openai/gpt-oss-safeguard
查看评论