Ingenieros de Microsoft desarrollaron 'VALL-E', una nueva herramienta de inteligencia artificial (IA), que puede simular la voz de una persona tras escucharla solo 3 segundos. La aplicación se basa en una tecnología de compresión de audio denominada 'EnCodec', que ha sido desarrollada por Meta (calificada en Rusia como organización extremista), informaron sus autores en una publicación pendiente de revisión por pares.
Microsoft aprovechó la tecnología EnCodec como una forma de hacer que la síntesis de texto a voz (TTS, por sus siglas en inglés) suene realista, basándose en una muestra de fuente muy limitada. Durante la etapa de entrenamiento de la IA emplearon 60.000 horas de habla en inglés, lo que es cientos de veces más grande que los sistemas existentes.
Ventajas
Según sus creadores, VALL-E muestra capacidades de aprendizaje en contexto y se puede utilizar para sintetizar una voz personalizada de alta calidad con solo una grabación registrada de 3 segundos. Los resultados del experimento muestran que VALL-E supera significativamente a los sistemas TTS de cero disparos (no entrenados con la voz que simulan) de última generación, en términos de naturalidad del habla y similitud del hablante. Además, sostienen que VALL-E podría preservar la emoción del hablante y el entorno acústico en el mensaje de voz sintetizado a partir del texto.
Deficiencias
A pesar de sus notables logros, los investigadores de Microsoft llamaron la atención sobre algunos problemas de la herramienta. En particular, criticaron que algunas palabras pueden no ser claras, perderse o duplicarse en la síntesis del habla. Otro aspecto señalado fue que aún no puede cubrir la voz de todos, especialmente la de los hablantes con acento. También plantearon que la diversidad de estilos de habla no es suficiente, ya que LibriLight (la base de datos que emplearon para el entrenamiento) es un conjunto de datos de audiolibros, en el que la mayoría de las expresiones están en estilo de lectura.
Riesgos
Los ingenieros de Microsoft alertaron de que VALL-E podría sintetizar el habla que mantiene la identidad del hablante, lo que puede conllevar riesgos potenciales en el uso indebido del modelo. Un ejemplo de esto podría ser la falsificación de la identificación de voz o hacerse pasar por un hablante específico para producir un 'deepfake'.
Los 'deepfake', o falsificaciones profundas, son archivos de video, imagen o voz creados mediante un programa de inteligencia artificial para suplantar de forma muy realista la imagen de los protagonistas de los contenidos por los de otras personas.