Un estudio dirigido por investigadores de la Universidad de California, EE.UU., mostró que los chatbots pueden ser mejores que un médico para crear la impresión de un trato amable al responder preguntas de los pacientes en foros públicos en línea.
Sin embargo, aunque los resultados sugieren que los asistentes de inteligencia artificial (IA) pueden ayudar a redactar respuestas a las preguntas de los pacientes, los expertos subrayan que la aplicación de la herramienta en la práctica clínica debería estar supervisada por médicos. Este criterio se basa en el historial de errores básicos que comete el algoritmo y la posibilidad de incluir en sus respuestas datos incorrectos o inventados. También es relevante el hecho de que el procedimiento experimental solamente haya evaluado las respuestas dadas por un solo profesional, lo que limitó el alcance de los resultados.
La investigación evaluaba la capacidad de respuesta empática de profesionales de la salud, con credenciales verificadas, y el chatbot de IA de ChatGPT. Para esto, un panel de expertos examinó cuál se desempeñó mejor al responder 195 preguntas médicas extraídas al azar de una subcomunidad pública llamada 'AskDocs' (Pregunta a un médico), alojada en el sitio web de foros sociales y agregador de noticias Reddit.
Cada pareja de respuestas a cada pregunta fue examinada a ciegas por tres jurados diferentes. Los evaluadores eligieron "qué respuesta fue mejor" y juzgaron tanto "la calidad de la información brindada" (muy mala, mala, aceptable, buena o muy buena) como "la empatía o trato brindado al lado de la cama" (sin empatía, levemente empática, moderadamente empática, empática, y muy empática). Los resultados medios se ordenaron en una escala de 1 a 5 y se compararon entre el chatbot y el médico. La puntuación fue promediada, haciendo un total de 585 valoraciones.
En el 78,6 % de los casos, los jurados prefirieron las respuestas del chatbot, argumentando que tenían información de mayor calidad y un lenguaje más empático. En comparación con las respuestas del médico, alrededor de 4 veces más respuestas de ChatGPT se situaron en los niveles más altos de calidad y 9,8 veces más obtuvieron las calificaciones más altas de empatía.
Las respuestas del chatbot también fueron significativamente más largas, con un promedio de 211 palabras en comparación con las 52 palabras empleadas por el médico. El artículo que describe el estudio fue publicado recientemente en JAMA Internal Medicine.
No son la panacea
Los investigadores son del criterio de que, dado que los foros en línea pueden no reflejar las interacciones típicas entre un médico y un paciente, donde existe una relación preexistente y más personalización, conviene analizar más a profundidad la implementación de esta herramienta en la práctica clínica. Ensayos aleatorizados podrían evaluar más a fondo si el uso de asistentes de IA podría mejorar las respuestas, reducir el agotamiento de los médicos y mejorar los resultados de los pacientes.
Dada la propensión de estas herramientas a 'alucinar' e inventar hechos, "sería peligroso confiar en cualquier información fáctica proporcionada por tal respuesta de chatbot", advierte Anthony Cohn, de la Universidad de Leeds, Reino Unido. "Es esencial que cualquier respuesta sea revisada cuidadosamente por un profesional médico", subraya.
"Como los autores reconocen explícitamente, observaron una muestra muy pequeña de preguntas médicas enviadas a un foro público en línea y compararon las respuestas de médicos con lo que respondió ChatGPT. Ni el médico ni GPT tenían acceso al historial médico del paciente o al contexto adicional. No se debe suponer que sus resultados se aplican a otras preguntas, formuladas de manera diferente o evaluadas de manera diferente. Este no fue un ensayo controlado aleatorio", destacó el profesor Martyn Thomas, del Gresham College en Reino Unido.