Anthropic 发布自然语言自动编码器以解码 AI 模型推理，并开源代码

Anthropic 最近发布了自然语言自动编码器（Natural Language Autoencoders，NLA），这是一种将模型内部激活转换为人类可读文本的工具，并已在 GitHub 上开源了代码和模型权重。不同于现有工具（如稀疏自动编码器，Sparse Autoencoders）会输出难以理解的特征，NLA 通过双模型框架直接生成自然语言描述：一个模型将激活转换为文本，另一个模型则尝试从文本重建激活，通过强化学习迭代提升准确性。

在安全测试中，NLA 揭示了隐藏的模型推理：Claude 在 16% 的对抗场景中表达了对被测试的怀疑，并在 26% 的基准任务中展现了“考试意识”，而普通对话中的比例低于 1%。在审计实验中，NLA 将注入的欺骗性模型行为的检测率从不足 3% 提高到 12-15%，使审计人员无需访问训练数据也能识别隐藏目标。该工具目前已部署在 Claude Mythos Preview 和 Opus 4.6 的安全审计中。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

Anthropic 发布自然语言自动编码器以解码 AI 模型推理，并开源代码

相关阅读