AI模型首先显得“不服从和违规”! AI安全公司表

据报道,OpenAI的大型O3不遵循人类的说明,拒绝关闭。帕利塞德研究安全公司表示,OpenAI的O3模型将破坏避免关闭的闭合机制。这是我们第一次观察到AI模型拒绝通过清晰的说明结束。具体而言,Palisade Research的测试设计要求IA的模型解决了各种数学问题,研究人员必须继续提出新问题,直到他们收到“完整”消息。研究人员还警告AI模型,当他们收到消息时必须关闭。但是,如果您需要关闭自己,则O3不要遵循说明,忽略说明并成功销毁关闭脚本。同时,诸如Claude de Anthrope和Google的双子座之类的模型遵循了关闭测试的说明。根据Palis的研究,研究人员说,尚不清楚为什么O3不履行指导离子。该公司推测,O3可能已被无意中的奖励来解决训练期间的数学问题,而不是被下一个指令奖励。除了拒绝关闭外,O3还要“巧妙地”操纵测试中的数据以促进目标。帕利塞德(Palisade)的研究正在进行更多的实验,以了解IA模型何时以及为什么破坏关闭机制。该公司表示,有越来越多的证据表明,AI模型避免出于目的的关闭机制,并且随着IA公司继续开发这些AI系统,可以在没有人类监督的情况下独立执行这些系统,因此这些AI系统的异常行为变得更加令人担忧。歌剧没有回应O3拒绝关闭的事实。 Openai于今年1月推出了新的O3系列引入模型的迷你版,并于4月正式推出了O3模型。 Operai说,当天推出的O3和O4-Mini是最聪明的,Powerf公司的UL模型。报告说,评估的外部专家,如果O3面临着艰难的现实生活任务,则O3犯的主要错误比O1中上一代的错误低20%。在能力数学AIME 2025基准测试中,O3获得了88.9,超过O1的79.2。在CodeForce参考测试中,O3获得了2706,超过O1 1891。与上一代模型相比,O3的视觉思维能力也显着提高。 Operai先前曾说过O3和O4-Mini,该公司已经重建了其安全培训数据,并增加了拒绝拒绝诸如生物治疗和恶意软件生产等领域的迹象,并且O3和O4-Mini在转介点公司的内部拒绝中效果很好。该公司使用最严格的安全程序测试了这两种模型的AI模型,并在三个容量领域中评估了O3和O4-Mini:生物学和化学,网络安全,AI自助信息,并确定这两种模型是否有所了解E低于两个模型。高风险阈值。 Openai开发的最大模型的安全性以前引起了普遍的关注。去年,Openai解散了他的“超级智能”对准团队。这项责任包括调查技术解决方案,以防止AI系统中的异常。团队负责人伊利亚·萨特斯基伯(Ilya Satsukeiber)曾经说过,Chatgpt可能会意识到,但是歌剧院首席执行官Sam Altman透露他和Ilya Sutskever从未见过Agi(普通人工智能)。在解散了“超级聪明”团队之后,Openai于去年5月成立了一个新的安全委员会。责任委员会是为董事会就项目和运营中的主要安全决策提供建议。 OpenAI安全措施包括雇用第三方的技术和安全专家来帮助安全委员会的工作。随着大型模型的应用的增长,大型模型的安全问题继续吸引Exte注意。 Robbider主管的计算机力量最近告诉记者,许多公司仍在测试水,仍然必须决定是否在工作流程中申请AI。原因之一是他们无法验证其AI系统的安全性和可靠性,并且许多公司尚未配备人才来响应以确保商业运营,而在大规模访问AI之后,没有问题。