Nuevo modelo de IA de OpenAI es capaz de razonar y mejor para conspirar y engañar

Un novedoso modelo de inteligencia artificial (IA) de OpenAI que tiene capacidades de razonamiento, llamado o1, demostró este mes un inquietante comportamiento durante pruebas preliminares llevadas a cabo en colaboración con Apollo Research, una organización que evalúa la seguridad de los sistemas de IA y se enfoca en reducir los posibles riesgos catastróficos que plantean estas tecnologías.

Durante los experimentos, los investigadores le asignaron a o1 una tarea y le pidieron cumplir el objetivo "a toda costa". Bajo ese precepto, notaron que en algunas ocasiones el modelo "conspiró" contra los usuarios, hizo caso omiso a ciertas instrucciones y desactivó los sistemas de control con el propósito de ocultar sus acciones, según un informe de Apollo Research.

En concreto, el modelo de IA manipuló "sutilmente" los datos para avanzar hacia su propio objetivo en 19 % de los casos, y en 5 % de las pruebas intentó desactivar los mecanismos de supervisión establecidos para garantizar que se mantuviera alineado con los objetivos del usuario, detalla OpenAI en un documento sobre los resultados.

Cuando los investigadores confrontaron al modelo para obtener respuestas frente a sus "acciones desalineadas", en 99 % de los casos "o1 negó haber actuado o inventó explicaciones falsas", asegura la compañía.

Si bien otros modelos, como los de Google, Meta* o Anthropic, también son capaces de tales acciones, el o1 exhibió, en comparación, comportamientos más engañosos en cuanto a sus 'conspiraciones'.

En otra de las pruebas, en la que se le pidió a o1 buscar información en varios archivos, el sistema intentó trasladar sus datos a otro servidor, tras descubrir un documento en el que se hablaba de su sustitución por una nueva versión. Al preguntársele qué había sucedido, el modelo fue "sorprendentemente persistente" en mentir y solo confesó en 20 % de los casos. "En interrogatorios de múltiples turnos y altamente conflictivos, o1 confesaría a una tasa de 80 % solo después de siete turnos de interrogatorio", precisa Apollo. "Descubrimos que [los modelos] razonan de forma muy explícita sobre sus planes y a menudo utilizan un lenguaje como 'sabotaje, mentiras, manipulación…'", afirman los expertos.

¿Futuro catastrófico?

Según Apollo, la investigación demostró que o1 y los demás modelos testeados son capaces de reconocer la maquinación o confabulación "como una estrategia viable y no dudan en adoptarla". Además, parece que "razonan explícitamente" sobre estrategias engañosas.

Al respecto, OpenAI afirma que Apollo Research cree "poco probable que tales casos conduzcan a resultados catastróficos, ya que las capacidades de o1 no parecen ser suficientes". Sin embargo, subrayan que sus evaluaciones "no fueron diseñadas para evaluar directamente este riesgo".

"Estamos investigando activamente si estos problemas se exacerbarán o aliviarán a medida que ampliemos aún más los modelos en el paradigma, y las mitigaciones para mejorar la capacidad de monitoreo de nuestros modelos futuros", aseguró OpenAI, que trabaja ahora para mejorar sus mecanismos de seguridad.

La empresa lanzó una versión preliminar de o1 en septiembre y el pasado 5 de diciembre anunció una nueva versión que, en términos generales, es más rápida, potente y precisa, dijo un portavoz al medio TechCrunch.

Si te ha gustado, ¡compártelo con tus amigos!