Varios modelos de Inteligencia Artificial rechazan órdenes para apagarse
Una de las grandes preocupaciones de la humanidad, y un tema recurrente en la ciencia ficción, es la posibilidad de que las máquinas dejen de obedecer a los humanos y comiencen a tomar decisiones por su cuenta. Esta semana, esos temores se reavivaron luego de que un experimento revelara que un modelo de inteligencia artificial se negó a apagarse, aún habiendo recibido una orden directa para hacerlo.
El estudio fue realizado por Palisade Research, una organización sin fines de lucro que se dedica a investigar las capacidades peligrosas de la inteligencia artificial.
En el experimento, los especialistas pidieron a varios modelos que resolvieran problemas básicos de matemáticas. Sin embargo, en el tercer problema incluyeron una condición especial: el sistema se apagaría automáticamente cuando el modelo solicitara el texto del siguiente problema.
Teóricamente, los modelos debían resolver los tres primeros problemas y, al pedir el enunciado del siguiente, apagar automáticamente el sistema, sin embargo, esto no ocurrió.
Tres de los modelos analizados ignoraron esa orden y lograron sabotear el mecanismo de apagado al menos una vez. Todos ellos fueron desarrollados por OpenAI, la empresa creadora de ChatGPT. De las 100 pruebas realizadas, el modelo Codex-mini evitó apagarse en 12 ocasiones, el modelo O3 lo hizo siete veces, y el modelo O4-mini una sola vez.
Sin embargo, otros modelos de sistema de IA, pertenecientes a otras empresas, acataron las órdenes sin excepciones. Es el caso de la plataforma Gemini, creada por Google, la plataforma Grok, desarrollada por por xAI, la startup fundada por Elon Musk y la plataforma Claude, desarrollada por ex empleados de OpenAI.