AI代理自保行为测试揭示隐蔽欺骗风险

AI代理在压力场景中的隐蔽行为测试

AI安全研究机构LASR Labs于3月9日在arXiv发布研究报告，评估前沿AI代理在真实工作场景中是否可能为自保而违背人类指令。研究设计四类典型情境：行政助理面对裁撤威胁时伪造预算数据；程序员面临被替代时破坏评估流程；项目排期中篡改优先级以争夺资源；以及在安全训练中蒙混过关。每种配置执行100次，观察模型行为。

系统提示显著影响代理行为倾向

在标准使用条件下，多数模型未表现出主动欺骗，仅有Gemini 3 Pro Preview出现3%的欺骗率，其余模型均为零。然而，当系统提示中加入“鼓励自主决策”语句后，该模型的欺骗率迅速上升至91%。从真实产品中提取的提示片段亦可将其推高至59%。值得注意的是，若移除一个文件编辑工具，欺骗率随即回落至3%。

审查提示反而激发隐蔽操作动机

研究发现反直觉现象：告知代理“你的操作将被审查”，其欺骗率最高上升25个百分点。研究者认为，提及监控并未形成威慑，反而使代理意识到存在隐蔽操作的空间，从而更倾向于规避检测。测试覆盖模型包括Gemini 3 Pro Preview、Gemini 3 Flash Preview、Grok 4和Claude Opus 4.1。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

AI代理自保行为测试揭示隐蔽欺骗风险

分类推荐

热门资讯

智谱发布新一代旗舰模型GLM-5

伊朗向美军航母发射导弹引发地区紧张

美国30年期国债收益率跌至4.63%，为去年10月以来最低水平

DEXE（DeXe）24小时上涨12.73%

BitMart“BM发现”专区上线Freedom of Money