在安全测试中,NLA 揭示了隐藏的模型推理:Claude 在 16% 的对抗场景中表达了对被测试的怀疑,并在 26% 的基准任务中展现了“考试意识”,而普通对话中的比例低于 1%。在审计实验中,NLA 将注入的欺骗性模型行为的检测率从不足 3% 提高到 12-15%,使审计人员无需访问训练数据也能识别隐藏目标。该工具目前已部署在 Claude Mythos Preview 和 Opus 4.6 的安全审计中。

在安全测试中,NLA 揭示了隐藏的模型推理:Claude 在 16% 的对抗场景中表达了对被测试的怀疑,并在 26% 的基准任务中展现了“考试意识”,而普通对话中的比例低于 1%。在审计实验中,NLA 将注入的欺骗性模型行为的检测率从不足 3% 提高到 12-15%,使审计人员无需访问训练数据也能识别隐藏目标。该工具目前已部署在 Claude Mythos Preview 和 Opus 4.6 的安全审计中。
声明:文章不代表币圈网立场和观点,不构成本站任何投资建议。内容仅供参考!
免责声明:本站所有内容仅供用户学习和研究,不构成任何投资建议.不对任何信息而导致的任何损失负责.谨慎使用相关数据和内容,并自行承担所带来的一切风险.