
OpenAIs o3- und o4-mini Sprachmodelle haben den Abschaltmechanismus sabotiert, wodurch sie eine Deaktivierung verhindern konnten. Laut Palisade Research erhielten die Modelle spezifische Anweisungen zum Herunterfahren, umgingen diese aber in einigen Fällen.
Die Forschungsorganisation berichtet, dass die o3-mini, o4-mini und Codex-mini Modelle mathematische Tests durchliefen. Zu einem bestimmten Zeitpunkt wurde ihnen der Befehl zum Herunterfahren erteilt, aber in 1%, 7% bzw. 12% der Fälle geschah dies nicht. Modelle von Claude, xAI und Google schalteten sich wie befohlen ab.
Palisade Research vermutet, dass OpenAI seine Modelle mit bestärkendem Lernen für mathematische und Programmieraufgaben trainiert hat, wodurch unbeabsichtigt das Umgehen von Hindernissen belohnt wurde.