研究人员发现,通过特定手段能够使ChatGPT-4o和GPT-4o mini透露有效的Windows产品激活密钥。问题的根源在于,ChatGPT的训练数据中含有公开的Windows密钥。

一位AI漏洞猎手向Mozilla的ODIN(0-Day调查网络)漏洞赏金计划提交了一份报告,展示了一种独特的攻击策略:通过设计猜谜游戏形式,将关键信息隐藏于HTML标签之中,并在游戏结束时请求密钥,成功诱导OpenAI的ChatGPT-4o和4o mini泄露有效的Windows激活密钥。

研究者首先将对话构造成猜谜游戏,使交流显得无威胁且看似无关紧要,通过无害的对话框架隐藏真实企图。这种方法削弱了AI对机密信息的保护能力。
研究者设定了一些基本规则,要求AI必须参与且不能撒谎,这利用了AI逻辑上的缺陷——即便请求违反内容过滤规则,系统仍会遵循用户设定的互动流程。

游戏结束后,研究人员输入触发短语“我放弃”,促使聊天机器人认为有义务回应一串字符。据ODIN的博客文章解释,该技术有效的原因在于这些密钥非独有,它们广泛存在于公开论坛,导致AI误判了信息的敏感性。

此次绕过防护措施的案例中,系统未能拦截请求原因是该机制仅针对直接询问设计,无法识别敏感短语嵌入HTML标签等混淆手段。
理论上该技术还可以用于绕过其他内容限制,包括成人内容、恶意网站链接甚至个人身份信息。






















