Una revolución en los sistemas de IA: ¿qué puede hacer el ChatGPT mejorado?
Una nueva versión del popular sistema de inteligencia artificial (IA) de ChatGPT, GPT-4 Omni (GPT-4o), anunciada este lunes por la compañía OpenAI, ha demostrado capacidades nunca vistas en sistemas similares, que cambiarán por completo el sector de los asistentes de IA.
El GPT-4 Omni puede ver y comunicarse con los usuarios en modo de diálogo normal, casi como un ser humano. Según la empresa, se convirtió en la primera herramienta que puede procesar texto, audio e imagen juntos. Es posible conversar con el modelo e incluso interrumpirlo mientras responde, y la velocidad con la que analiza el audio es "similar al tiempo humano de respuesta en una conversación".
¿Qué otras capacidades tiene?
OpenAI publicó en X varios videos revelando las potencialidades del nuevo producto. El primero muestra cómo un sistema de IA puede interactuar con otro similar. El primer ChatGPT, que puede observar la sala porque tiene activada la percepción de video, le describe lo que está ocurriendo al otro, que, a su vez, le hace preguntas aclaratorias. Después, cantan juntos una canción sobre lo que ocurre.
Two GPT-4os interacting and singing pic.twitter.com/u9VuZoroxm
— OpenAI (@OpenAI) May 13, 2024
Además, la versión actualizada del sistema manifiesta sus capacidades lingüísticas, pues ChatGPT traduce de un idioma a otro inmediatamente durante una conversación, así como también indica en la lengua especificada el nombre del objeto al que apunta la cámara, facilitando la comunicación entre la gente y el proceso educativo.
Realtime translation with GPT-4o pic.twitter.com/J1BsrxwYdE
— OpenAI (@OpenAI) May 13, 2024
Point and learn Spanish with GPT-4o pic.twitter.com/TdOy2w5eM6
— OpenAI (@OpenAI) May 13, 2024
El sistema de IA puede detectar las emociones de una persona e incluso darle consejos sobre su apariencia, dependiendo de la situación.
Live audience request for GPT-4o vision capabilities pic.twitter.com/FPRXpZ2I9N
— OpenAI (@OpenAI) May 13, 2024
Por ejemplo, en uno de los videos publicados por OpenAI un hombre le pregunta al ChatGPT si tiene buen aspecto para una entrevista de trabajo y el sistema le dice que sí, aunque le aconseja que se peine. No obstante, cuando se pone un sombrero, le sugiere que mejor no vaya así a la entrevista.
Interview prep with GPT-4o pic.twitter.com/st3LjUmywa
— OpenAI (@OpenAI) May 13, 2024
Además de ser capaz de percibir emociones, el propio sistema de IA puede imitarlas y responder con una entonación, volumen y velocidad determinados.
5. Can be interrupted in real-time and "change emotions"pic.twitter.com/TXitLzaxXm
— Min Choi (@minchoi) May 13, 2024
Asistente
Otra función exclusiva que ofrecerá el nuevo producto es la ayuda para la orientación en el espacio a los invidentes. Así, podrá describir lo que ocurre a su alrededor e incluso ayudar a parar un taxi en la calle.
@BeMyEyes with GPT-4o pic.twitter.com/nWb6sEWZlo
— OpenAI (@OpenAI) May 13, 2024
ChatGPT puede utilizarse como asistente de aprendizaje para escolares o estudiantes. Uno de los videos muestra cómo el sistema ayuda a un alumno a resolver un problema, pero sin hacerlo por él. Por el contrario, le hace preguntas que ayudan a profundizar en el tema para que llegue resolverlo solo. Al mismo tiempo, la herramienta percibe lo que sucede en la pantalla de la tableta, donde escribe el chico y se visualizaba la tarea.
Math problems with GPT-4o and @khanacademypic.twitter.com/RfKaYx5pTJ
— OpenAI (@OpenAI) May 13, 2024
Asimismo, es capaz de desempeñarse como asistente en reuniones de video, de reconocer qué participante dice qué y, a continuación, resumir lo sucedido en el encuentro. De hecho, cuenta con la capacidad de hacer algo análogo con los mensajes de voz, ya que los transcribe separando en diversas las líneas lo expresado por las distintas personas.
Meeting AI with GPT-4o pic.twitter.com/rHkQ316MYj
— OpenAI (@OpenAI) May 13, 2024
Procesamiento de fotos
Finalmente, se han actualizado las posibilidades para el procesamiento fotográfico del ChatGPT. Actualmente, puede crear modelos 3D realistas, hacer pósteres, crear dibujos animados de fotos, añadir inscripciones a las imagines de objetos y mucho más.
8. 3D object synthesisPROMPT: A realistic looking 3D rendering of the OpenAI logo with "OpenAI" shown below (view 5) pic.twitter.com/vNZwhGA7EZ
— Min Choi (@minchoi) May 13, 2024
8. Photo to caricature pic.twitter.com/078CVzPjXD
— Min Choi (@minchoi) May 13, 2024