OpenAI启动新型安全激励机制,直面AI滥用挑战
OpenAI正式发布面向外部研究者的新型安全赏金计划,标志着其在人工智能风险管理策略上的重大转型。该计划不再局限于传统系统漏洞,而是将关注重心转移至模型在真实场景中可能被误用或恶意利用的风险点。
拓展评估边界:从代码缺陷到行为层面威胁
此次合作由OpenAI与Bugcrowd共同主导,向道德黑客、学术研究人员及专业安全分析师全面开放。计划特别鼓励提交涉及提示注入攻击、代理角色滥用等行为型风险案例,此类问题虽不直接暴露技术缺陷,却可能引发模型输出偏离预期,甚至在复杂交互环境中造成不可控后果。
强化证据要求,严控敏感信息传播
新机制允许提交不依赖具体代码漏洞的报告,例如模型生成不当内容或存在潜在误导性的推理路径。但平台设定严格标准,仅接受具备充分实证支持且具有实际危害潜力的案例。对于触及生物安全、国家安全等高敏感领域的发现,将通过加密私密通道处理,最大限度降低信息外泄风险。
行业反响两极:协作价值与治理局限并存
该举措在技术圈内引发广泛讨论。部分学者认为此举有助于建立更具包容性的风险识别生态,提升模型部署前的安全冗余;另一些声音则指出,当前机制仍难以覆盖数据采集伦理、责任归属等深层议题,需配套更完善的制度设计加以补充。
