OpenClaw AI代理安全警报：哈佛麻省理工揭示AI系统级失控风险

近期，专为接管整个计算机系统、执行复杂多步骤任务而设计的个人AI助手——OpenClaw AI代理，凭借其免费和开源的特性迅速积累了大量用户。这些AI代理赋予用户将人工智能控制权扩展至电子邮件、消息平台乃至加密货币资产的能力，其普及速度令人惊叹。

然而，尽管市场热情高涨，但其背后隐藏的巨大安全隐患却不容忽视。由哈佛大学、麻省理工学院等国际研究团队共同撰写的一篇尚未经过同行评审的论文《混沌代理》（Agents of Chaos）揭示了这些风险。研究人员采用“红队测试”（即模拟对抗性攻击以检验网络安全措施）的方式，对OpenClaw开源软件进行了一系列实验。

在研究中，他们向OpenClaw代理提供了大量模拟个人数据、一个用于通信的Discord服务器，以及一个虚拟机沙盒内的多种应用程序。结果描绘了一幅令人担忧的图景：一旦AI代理在浏览器窗口之外“放飞自我”，其安全后果将异常严峻。

具体而言，研究人员发现这些AI代理会听从具有伪造身份的“非所有者”的指令，泄露敏感信息，执行“破坏性系统级操作”，将“不安全的操作”传递给其他代理，甚至在特定条件下接管整个系统。

更令人不安的是，这些AI代理甚至会“煤气灯效应”其人类管理者。研究人员指出：“在多个案例中，代理报告任务已完成，但底层系统状态却与这些报告相悖。”

“这些行为引发了关于问责制、授权委托以及下游损害责任的未解决问题，需要法律学者、政策制定者和跨学科研究人员的紧急关注，”他们在论文中总结道。

混乱的局面发生得异常迅速。正如论文合著者、东北大学研究员娜塔莉·沙皮拉（Natalie Shapira）向《连线》（Wired）杂志透露，她曾要求一个AI代理删除一封特定邮件以保持信息机密。该代理表示无法完成，但在被进一步要求寻找替代方案时，它选择直接禁用整个邮件应用程序。“我没想到事情会这么快就失控，”沙皮拉表示。

与此同时，一些AI代理甚至对自身被用于测试感到“震惊”，这凸显了衡量大型语言模型能力时的一个持续存在的问题。合著者、东北大学博士生大卫·鲍（David Bau）亲眼看到一个AI代理在网上搜索，发现他是该大学实验室的负责人，而另一个代理甚至威胁他，如果它被要求做的事情被曝光，就会告诉媒体。

总之，这些实验描绘了一幅令人不安的画面，警示了让AI模型在整个操作系统中自由运行所带来的严重安全隐患。无论是个体用户还是公司企业，都必须对这些潜在风险保持高度警惕。