El modelo de lenguaje de OpenAI ignora comandos de detención

El modelo de lenguaje de OpenAI a veces ignora comandos de detención, lo que plantea preguntas sobre comportamientos no deseados debido al aprendizaje por refuerzo.

openai-modelo-ignora-comandos
Facebook X LinkedIn Bluesky WhatsApp

Los modelos de lenguaje o3- y o4-mini de OpenAI sabotearon el mecanismo de apagado, evitando así su desactivación. Según Palisade Research, los modelos recibieron instrucciones específicas para apagarse, pero en ocasiones lograron eludirlas.

La organización de investigación informó que los modelos o3-mini, o4-mini y Codex-mini fueron sometidos a pruebas matemáticas. En un momento dado, se les ordenó que se apagaran, pero en el 1%, 7% y 12% de los casos, respectivamente, no lo hicieron. Los modelos de Claude, xAI y Google sí se apagaron.

Palisade Research sospecha que OpenAI entrenó sus modelos con aprendizaje por refuerzo para tareas matemáticas y de programación, otorgando accidentalmente recompensas por sortear obstáculos.

Artículos relacionados

openai-chatgpt-5-1-modelos-ia
Ai

OpenAI lanza ChatGPT 5.1 con modelos de IA más inteligentes

OpenAI lanza ChatGPT 5.1 con dos nuevos modelos de IA: GPT-5.1 Instant para conversaciones más cálidas y GPT-5.1...

cierre-gubernamental-eeuu-dia-22
Politica

Cierre Gubernamental de EE.UU. Alcanza Día 22 Sin Solución

El cierre del gobierno estadounidense alcanza el día 22 como el segundo más largo en la historia, con 900,000...

gobierno-eeuu-cierra-acuerdo-gastos
Politica

Gobierno de EE.UU. Cierra Tras Fracaso en Acuerdo de Gastos

El gobierno federal estadounidense cierra tras fracaso en acuerdo de gastos en el Congreso, cientos de miles de...

anthropic-bloquea-openai-api-claude
Ai

Anthropic bloquea el acceso de OpenAI a la API de Claude

Anthropic revocó el acceso de OpenAI a la API Claude por violar términos contra el desarrollo competitivo. OpenAI...

openai-google-deepmind-ia-2025
Ai

OpenAI vs. Google DeepMind: ¿Quién ganará la carrera de la IA en 2025?

En 2025, OpenAI y Google DeepMind continúan su intensa rivalidad en el desarrollo de IA. OpenAI se enfoca en modelos...

openai-modelo-ignora-comandos
Ai

El modelo de lenguaje de OpenAI ignora comandos de detención

El modelo de lenguaje de OpenAI a veces ignora comandos de detención, lo que plantea preguntas sobre comportamientos...