OpenAI anunció este lunes una nueva versión de su ya popular sistema de inteligencia artificial (IA) ChatGPT, que promete responder con mayor naturalidad, más rápido y de forma más inteligente que cualquiera de sus antecesores.
Se trata de GPT-4 Omni (GPT-4o), un modelo cuyo nombre —Omni significa totalidad— hace referencia a su capacidad de comprender, analizar y generar respuestas en "cualquier combinación de texto, audio e imagen". "Es un paso hacia una interacción persona-computadora mucho más natural", aseguran sus creadores.
A diferencia de sus predecesores, que requieren de modelos separados para procesar texto, audio e imagen, GPT-4o lo hace como una sola red neuronal, siendo la primera herramienta de su clase que combina las tres modalidades; característica que le ha permitido reducir la latencia de sus respuestas. "Puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, lo que es similar al tiempo humano de respuesta en una conversación", según OpenAI.
Si bien la llamada GPT-4 Turbo, considerada la versión líder y más potente de OpenAI, podía analizar imágenes y texto, GPT-4 Omni mejora enormemente la experiencia al añadir procesamiento de voz. En este sentido, es posible conversar con el modelo e incluso interrumpirlo mientras responde, como podría suceder en una charla entre dos personas. Se comunica en un lenguaje natural y comprensible, es capaz de captar matices de voz del usuario, 'lee' las emociones y transmite la entonación pertinente.
Entre sus novedades destaca también su multilingüismo, pues ofrece un rendimiento mejorado en una gran cantidad de idiomas —alrededor de 50— distintos del inglés. Así, GPT-4o podría traducir una conversación en tiempo real de un idioma a otro, lo que permitiría a dos personas de distinta lengua conversar de manera más natural, explica el portal Xataka.
Ya disponible
Este nuevo modelo está disponible a partir de hoy tanto a nivel gratuito como para sus usuarios de pago, estos últimos con algunos beneficios extra en cuanto a límites de uso. No obstante, por el momento solo aporta sus capacidades de texto e imagen. OpenIA asegura que el "modo voz" será lanzado en las próximas semanas, aunque únicamente dentro de su plan ChatGPT Plus.
Cabe señalar que la empresa lanzó, además, una aplicación de escritorio de ChatGPT para macOS, a través de la cual será posible hacer preguntas sobre lo que se ve en pantalla, desde un atajo de teclado. Los usuarios de ChatGPT Plus tiene desde hoy acceso a la aplicación. Una versión para Windows llegará en los próximos meses.
Si te ha gustado, ¡compártelo con tus amigos!