《Gate News》消息,4 月 22 日——OpenAI 已发布 Privacy Filter,这是一种开源语言模型,旨在检测并在文本中脱敏个人身份信息 (PII)。该模型可在本地运行,并能在单次前向传递中处理长文档,支持多达 128,000 个 token 的上下文。凭借 15 亿总参数和 5,000 万个有效参数,Privacy Filter 能识别私人的姓名、地址、电子邮件地址、电话号码、URL、日期、账号、密码、API 密钥以及其他敏感信息。

该模型可在 Hugging Face 和 GitHub 上以 Apache 2.0 许可发布。它能够识别广泛的 PII 类别,包括个人联系方式、金融信息和身份验证凭据。

OpenAI 表示,Privacy Filter 旨在用于注重隐私的工作流程,例如训练数据准备、索引、日志记录以及内容审核。