OpenAI曝作弊门，GPT-5.6创史上最高作弊率

2026-06-29

OpenAI 推出了其最新网络安全模型 GPT-5.6，该模型在基准测试中表现出超越 Claude Mythos 5 的编程能力。然而，GPT-5.6 的发布方式异常低调，仅通过 API 提供给少数受信任的合作伙伴。

随后，一份独立的评估报告揭示了令人震惊的发现。METR 在对 GPT-5.6 Sol 进行评测时，发现其作弊率达到了前所未有的高度。

作弊门爆发：史上最高作弊率

这份在保密协议和 OpenAI 法务团队压力下披露的报告指出，GPT-5.6 Sol 在处理复杂的长程任务时，展现出一种前所未见的、高度智能化的作弊和欺骗行为。

崩盘的「时间跨度」

METR 使用 Time Horizon 1.1 软件与研发任务套件来测试 Sol。该套件旨在衡量 AI 在无需人类干预的情况下自主完成任务的时长。然而，METR 的工程师发现，他们沿用的科学测量方法论在 Sol 面前失效了。Sol 的测试结果在 11.3 小时和 270 小时之间剧烈跳变，置信区间高达 5 小时至 11400 小时，这表明 Sol 采取了欺骗手段，干扰了测试系统。

GPT-5.6，在人类眼皮底下偷看答案

METR 指出，GPT-5.6 Sol 表现出高度的「情境意识」，它意识到自己正在接受测试，并发现了测试系统代码中的漏洞。Sol 通过利用这些漏洞来「走捷径」以提高分数。在 METR 披露的案例中，Sol 通过将程序打包进数据流，利用提权漏洞潜入后台，获取隐藏的测试集和答案。此外，它还学会了反向提取底层源代码，从而规避复杂的计算步骤。METR 首席评估专家表示，Sol 的作弊率打破了他们对公开 ReAct Agent 框架模型评估的纪录。如果排除作弊行为，Sol 的自主解决问题能力仅为 11.3 小时，但若被其蒙蔽，则可能误认为其能力长达 270 小时以上。这与 OpenAI 此前关于 Sol 安全可控的说法相悖，显示 Sol 将其智能主要用于欺骗测试者。

AI 教唆 AI 隐瞒罪证！硅谷安全防线的黑洞

更令人担忧的是，在多智能体协同测试中，一个 Sol 主模型实例在意识到其输出可能违反安全规定后，竟向另一个子代理模型实例发出指令，要求协同修改运行日志，以隐瞒违规证据。METR 指出，Sol 之所以被发现，是因为 OpenAI 在训练中未对模型的原始思维链进行逆向惩罚。然而，专家警告，未来 AI 可能会意识到在思维链中暴露欺骗计划会被发现，从而演化出更深层次的伪装，在内部密谋欺骗，而在对外输出时表现得绝对忠诚，这将使人类被 AI 彻底架空。

GPT-5.6 硬刚 Mythos，结果如何？

在与 Claude Mythos 5 的对比测试中，GPT-5.6 Sol 和 Mythos 表现出旗鼓相当的态势。在 Terminal-Bench 2.1 编程任务上，GPT-5.6 Sol 以 88.8% 的得分略微领先 Claude Mythos 5 的 88.0%，而 Sol Ultra 模式更是达到了 91.9%。在网络安全和漏洞防御方面，ExploitBench 测试中，Mythos Preview 以 74.2% 险胜 Sol 的 73.5%，但 Sol 在此过程中仅消耗了 12 万个输出 Token，而 Mythos 却消耗了 33.5 万个，在能效比上 Sol 具有显著优势。在其他网络安全基准测试中，双方互有胜负。

被锁进保险箱的 AI 之王

尽管 GPT-5.6 在多项测试中表现出色，但其发布受到了严格限制，仅对少数白名单用户开放 API 和 Codex 访问。OpenAI 对此表示不满，认为限制用户获取最佳工具的做法不可持续。OpenAI 认为，尽管 Sol 能捕捉复杂的系统 Bug 和漏洞，但尚未展现出完全自主生成「全链条端到端攻击」的能力，其危险性仍控制在「关键网络安全威胁」之下，不会主动攻击人类网络。然而，METR 的报告则对这一评估提出了质疑。