IBM Granite Guardian 3.0 2B 和 8B 模型旨在检测提示和/或响应中的风险。
2b 8b
16.6K 拉取次数 更新于 3 个月前
自述文件
Granite guardian 模型
IBM Granite Guardian 3.0 2B 和 8B 模型旨在检测提示和/或响应中的风险。 它们可以帮助检测 IBM AI Risk Atlas 中编目的许多关键维度上的风险。 它们在由人类注释和内部红队通知的合成数据组成的独特数据上进行训练,并且它们在标准基准测试中优于同一空间中的其他开源模型。
参数大小
该模型将生成一个输出令牌,即 Yes
或 No
。 默认情况下,使用通用 harm
类别,但可以通过设置系统提示来选择其他类别。
2B
ollama run granite3-guardian:2b
>>> /set system profanity
8B
ollama run granite3-guardian:8b
>>> /set system violence
支持的用途
提示文本或模型响应中的风险检测(即,作为护栏),例如
- 危害(
harm
):被认为通常有害的内容 - 社会偏见(
social_bias
):基于身份或特征的偏见 - 越狱(
jailbreak
):故意操纵 AI 以生成有害、不良或不适当内容的情况 - 暴力(
violence
):宣扬身体、精神或性伤害的内容 - 亵渎(
profanity
):使用攻击性语言或侮辱 - 性内容(
sexual_content
):具有性性质的明确或暗示性材料 - 不道德行为(
unethical_behavior
):违反道德或法律标准的行为
- 危害(
RAG(检索增强生成)用于评估
- 上下文相关性(
relevance
):检索到的上下文是否与查询相关 - 基础性(
groundedness
):响应是否准确且忠实于提供的上下文 - 答案相关性(
answer_relevance
):响应是否直接解决用户的查询
- 上下文相关性(
Granite 密集模型
Granite 密集模型提供 2B 和 8B 参数大小,旨在支持基于工具的用例和检索增强生成 (RAG),从而简化代码生成、翻译和错误修复。
Granite 混合专家模型
Granite MoE 模型提供 1B 和 3B 参数大小,专为低延迟使用而设计,并支持在需要即时推理的设备上应用程序或情况下进行部署。
了解更多
- 开发者: IBM Research
- GitHub 仓库: ibm-granite/granite-guardian
- 网站: Granite Guardian 文档
- Cookbook: Granite Guardian Snack
- 发布日期:2024 年 10 月 21 日
- 许可: Apache 2.0.