Actualidad

La inteligencia artificial de Google aprende un nuevo truco

Publicado: 19 abr 2018 22:53 GMT

Distinguir las palabras de los amigos en una ruidosa fiesta a veces es un desafío hasta para nosotros, pero pronto podría convertirse en una tarea sencilla para los asistentes personales de nuestros móviles.

La inteligencia artificial de Google aprende un nuevo truco — Logotipo de Google, el 28 de marzo de 2018.Dado Ruvic / Reuters

Investigadores de Google han desarrollado un nuevo modelo de aprendizaje audiovisual para enseñar a la inteligencia artificial a reconocer el habla en medio de otras voces o ruidos.

En un principio, el equipo enseñó a su modelo de una red neuronal a reconocer el habla de personas específicas y luego la entrenó a distinguir sus palabras en medio de otras múltiples voces, creando una especie de 'fiestas' virtuales, una mezcla de videos con distintos hablantes. Tras analizar la mímica y las voces de los hablantes, la red neuronal aprendió a reconocerlas y aislarlas de los demás ruidos, generando pistas individuales con las palabras de cada hablante analizado.

Si no le sorprende este avance en el mundo de la inteligencia artificial, intente hablar con un asistente personal de su móvil en una ruidosa fiesta para ver cómo lo entiende y responde. Distinguir lo que dicen los demás en medio de otros sonidos es una tarea sencilla para los humanos (aunque no en cualquier fiesta), pero no lo ha sido en absoluto para los dispositivos inteligentes, que ahora podrán mejorar drásticamente en este aspecto.

En el video publicado por Michael Rubinstein, uno de los investigadores, se puede apreciar cómo funciona el nuevo algoritmo.

Para elaborar su modelo de aprendizaje audiovisual, los investigadores utilizaron 100.000 videos de alta calidad de YouTube con grabaciones de distintas conferencias y discursos. La tecnología puede mejorar el procesamiento del habla durante las videoconferencias o videollamadas, sobre todo en situaciones con varios hablantes.

"Demostramos que nuestro método es aplicable tanto a las tareas clásicas de la separación de voz, como a las situaciones reales durante las acaloradas entrevistas, en bares ruidosos y con niños gritando", señalan los autores del estudio sobre el nuevo modelo. Lo único que se requiere del usuario es especificar la cara de la persona del video cuyo discurso le interesa, agregan.