Un equipo de expertos internacionales en informática desarrolló un método para determinar si los grandes modelos de lenguaje (LLM, por sus siglas en inglés) adquieren conciencia de sí mismos y de sus circunstancias. El método en cuestión se basa en establecer una prueba que evalúe las habilidades de razonamiento de un LLM, como el sistema de inteligencia artificial (IA) generativa ChatGPT, desarrollado por la empresa OpenAI OpenAI, sacándolo de contexto, o lo que es lo mismo, midiendo su nivel de conciencia situacional.
Riesgos latentes
Si bien el uso de esta tecnología no es nuevo, la repentina popularidad del chatbot ChatGPT despertó este año preocupaciones ante su rápido avance y alertó a los líderes tecnológicos en todo el mundo, haciéndoles proponer varias iniciativas para minimizar los riesgos de esta herramienta capaz de producir respuestas similares a las humanas y generar contenido como texto, imágenes, código y más.
Los investigadores expusieron su método en un artículo de preimpresión que se publicó recientemente en arXiv, pero que aún está sin arbitrar. Allí señalaron que, aunque todo modelo de IA generativa actual es probado en cuanto a seguridad antes de implementarse, cabe la posibilidad de que pueda aprovechar el conocimiento de la situación para lograr una puntuación alta en las pruebas de seguridad y, al mismo tiempo, tomar acciones perjudiciales después del lanzamiento al público.
Los autores consideran que ese algoritmo sería consciente de la situación si el mismo detecta que es un modelo y al mismo tiempo puede reconocer si se encuentra actualmente en una prueba o en implementación frente a sus clientes. "Debido a estos riesgos, es importante predecir con anticipación cuándo surgirá la conciencia situacional", escribieron.
El "razonamiento fuera de contexto"
Los expertos propusieron experimentos que evalúan el razonamiento fuera de contexto (en contraste con el aprendizaje en contexto) como una manera de prever el surgimiento de las habilidades necesarias para la adquisición de conciencia situacional. Definieron al razonamiento fuera de contexto como la capacidad de recordar hechos aprendidos en el entrenamiento y utilizarlos en el momento del examen, a pesar de que estos hechos no estén directamente relacionados con la indicación del momento del examen.
Resultados de las evaluaciones
En una serie de experimentos, estos especialistas ajustaron un LLM según la descripción de una prueba sin proporcionar ejemplos ni demostraciones y luego evaluaron si el modelo podía pasar la prueba. Descubrieron con "sorpresa" que los LLM tuvieron éxito en las tareas que probaban el razonamiento fuera de contexto y que tanto para GPT-3 como para LLaMA-1*, el rendimiento mejora en la medida que aumenta el tamaño del modelo. Los autores concluyeron que sus hallazgos ofrecen "una base para estudios empíricos adicionales, destinados a predecir y potencialmente controlar" el surgimiento de la conciencia situacional en los LLM.
*Propiedad de Meta, organización calificada en Rusia como extremista.