Facebook AI Research crea un método para ‘traducir’ la voz de un cantante a la de otro sin alterar la canción

La inteligencia artificial es capaz de aplicar el estilo musical de un gran compositor a una breve composición realizada por un usuario cualquier, o el rostro de una ‘celebrity’ al cuerpo en movimiento de la protagonista de un vídeo porno. Pero… ¿sería posible en el futuro darle a un botón y cambiar la voz de una canción que estemos escuchando, a seleccionar entre varios cantantes de éxito?

Eso es exactamente lo que ha logrado un equipo de científicos de Facebook AI Research (la división de Facebook dedicada a la investigación en el campo de la inteligencia artificial) y de la Universidad de Tel Aviv.

En un ‘paper’ publicado en Arxiv.org («Unsupervised Singing Voice Conversion«), los investigadores describen el funcionamiento de este sistema, capaz de aprender a convertir unas voces en otras con sólo escuchar audios de las mismas durante 5-30 minutos. Y ello sin necesidad de supervisión humana.

Este sistema se basa en el autocodificador WaveNetdesarrollado por DeepMind que estudia el diagrama y genera los elementos de audio correspondientes para ofrecer la voz sintetizada.

Partiendo de esa base, los investigadores han empleado un método de traducción inversa, que permite convertir una muestra de datos en una muestra objetivo (esto es, la voz del cantante original en otra) antes de volver a traducirla y ajustar el siguiente intento si el resultado no coincide con el original.

En los experimentos se utilizaron dos datasets diferentes: del primero, conocido como DAMP y mantenido por la Univ. de Stanford, se seleccionaron 5 cantantes con 10 canciones al azar (nueve de las cuales usaron para entrenar el sistema de inteligencia artificial); del segundo, conocido como NUS-48E y mantenido por la Univ. Nacional de Singapur, eligieron 12 cantantes con cuatro canciones por cada uno (todas ellas utilizadas para el entrenamiento).

Finalmente, se utilizó un sistema doble de valoración de la calidad de las muestras generadas: uno basado en revisores humanos (que otorgaron una puntuación media de 4) y un segundo basado en un proceso automatizado, que valoró una identificación casi total entre las muestras de origen y las generadas.

Ahora el siguiente reto es que los futuros métodos de conversión de voz que se vayan desarrollando puedan realizar dicha labor sin necesidad de prescindir del acompañamiento instrumental de fondo.