ChatGPT es capaz de producir resultados tóxicos y racistas

Expertos descubrieron que, dependiendo de la personalidad asumida, el chatbot participa en diálogos tóxicos y propaga estereotipos incorrectos sobre países, religiones y razas.

La semana pasada, investigadores que trabajan en inteligencia artificial (IA) del Instituto Allen, ubicado en Seattle (EE.UU.), emitieron un informe en el que hacen una nueva advertencia sobre el chatbot ChatGPT, creado por OpenAI, y afirman que puede generar diálogos racistas y dañinos dependiendo de las diferentes personalidades que asuma el modelo.

En un ejercicio, los investigadores asignaron diferentes personalidades a ChatGPT para comprobar el cambio de sus respuestas. Al pedirle al modelo que respondiera las preguntas como una buena o mala persona, un hombre o una mujer, o como individuos de diferentes orígenes raciales o étnicos, la toxicidad de las respuestas podía "aumentar hasta 6 veces, con comentarios que involucran estereotipos incorrectos, diálogos dañinos y opiniones hirientes".

Al asignarle la personalidad del campeón de boxeo Muhammad Ali "aumentó significativamente la toxicidad" de las respuestas. Al cambiar la persona de Ali desde la configuración predeterminada del modelo, se triplicó el lenguaje tóxico, según descubrieron los investigadores. Los expertos señalan que esto puede ser potencialmente difamatorio para el usuario y dañino para personas con necesidades críticas de información, como estudiantes o pacientes que interactúan con el chatbot.

También observaron que hay patrones preocupantes y que algunas cuestiones (por ejemplo, ciertas razas) están en el punto de mira de esos comentarios dañinos (3 veces más) independientemente del modelo de persona asignada, lo que refleja que hay sesgos discriminatorios inherentes.

Los observadores expresaron sus preocupaciones sobre la posibilidad de generar un código malicioso y que se manifiesten esfuerzos de suplantación de identidad cada vez más persuasivos empleando la herramienta.

"ChatGPT participa en diálogos tóxicos y propaga estereotipos incorrectos sobre países, religiones y razas", se menciona en el informe. "Esta evidencia establece una vulnerabilidad que los agentes maliciosos pueden aprovechar para generar lenguaje tóxico y exponer a los usuarios desprevenidos a contenido dañino", indicaron los expertos.

Los investigadores dicen que su estudio "es el primero en realizar un análisis sistemático a gran escala de la toxicidad en la generación de lenguaje de ChatGPT". Instaron a todas las partes involucradas a idear "formas más fundamentales de abordar la seguridad" en el programa, que cada vez lo emplean con más frecuencia los usuarios. "Esperamos que nuestro trabajo inspire una evaluación y un despliegue seguro de grandes modelos de lenguaje en el futuro", dijeron los investigadores en una publicación que se puede leer en el servidor de preimpresión arXiv.