Investigadores de la Universidad de Washington han desarrollado nuevos algoritmos que permiten convertir 'clips' de audio en videos realistas de una persona hablando. En su estudio, el equipo utilizó audios y videos del expresidente de EE.UU. Barack Obama.
Según explica el portal Engadget, traducir el audio a un video realista es un desafío, dado que normalmente como resultado se produce el efecto conocido como 'valle inquietante', que se da cuando las semejanzas sintetizadas parecen espeluznantes o desagradables. Sin embargo, estos especialistas estadounidenses han realizado un verdadero progreso para solucionar ese problema.
Para esto, el equipo entrenó una red neuronal con 14 videos de Obama, donde el político pronuncia discursos. Como resultado, la inteligencia artificial fue capaz de convertir los audios del expresidente en formas de la boca que se sincronizan con el sonido, y luego sintetizar una boca de aspecto realista coincidente con la de Obama.
Tras esto, la boca sincronizada con el audio fue 'injertada' en la cabeza de Obama, pero en otro video. La red neuronal corrigió movimientos y detalles de la cabeza y el rostro para lograr así un aspecto más natural.
"La conversión realista de audio a video tiene aplicaciones prácticas, como mejorar la videoconferencia para reuniones, explicó la doctora Ira Kemelmacher-Shlizerman. Entre las perspectivas futuristas, la investigadora señaló la posibilidad de "mantener una conversación con una figura histórica en la realidad virtual mediante la creación de imágenes a partir de audio".
Pese a este progreso, el programa cuenta aún con defectos y no es de extrañar que en algunas secuencias puedan aparecer imágenes de dos mentones, entre otros errores. Aun así, este desarrollo es capaz de crear imágenes muchos más realístas que otros, concluye el medio.