Hace unos cuatro años salieron a la luz una serie de conversaciones del entonces gobernador de Puebla, Mario Marín Torres, en donde se ventilaban pláticas con temas escabrosos. Cuando dichas grabaciones se hicieron públicas, el funcionario salió a decir que sí, que era su voz, pero que no era él. Y quizá Marín Torres estaba ya visualizando una realidad que hoy podría ser bastante discutible, la cual trata de un programa inteligente que puede simular la voz de cualquier ser humano.
La voz humana, se sabe desde hace mucho, tiene una serie de inflexiones y tonos, en ocasiones sutiles, lo que ha hecho que el trabajo para hacer que las máquinas puedan hablar haya sido muy complicado. De hecho, muchas de las voces que escuchamos hechas por máquinas suenan muy robóticas.
Pero esto es probable que se acabe, pues una empresa de Montreal ha desarrollado un generador de voz que puede imitar virtualmente la voz de cualquier persona e incluso agregar un «punch» emocional cuando sea necesario. Y sí, el sistema no es perfecto aún, pero es claro que ya no solamente se podrán hacer fotos falsas, sino conversaciones con personas que nunca dijeron una sola palabra. El futuro pues se está poniendo complicado con estas nuevas tecnologías.
Alexa (Amazon), Siri, o la voz de Waze, son claramente voces generadas por software. Esto se hace pregrabando los sonidos, las frases, muchas veces de voces de actores, de manera que puedan unirse por software para así crear frases y oraciones completas. El resultado final es notablemente seco, robótico pero evidentemente, útil para los fines planteados.
Pero en un esfuerzo por inyectar «vida» a las voces automatizadas, la empresa de IA Lyrebird ha desarrollado un algoritmo para imitar voz que puede simular cualquier voz humana y leer un texto con una emoción predefinida (o entonación). Increíblemente esto puede lograrse analizando apenas unos 30 segundos de un audio pregrabado.
En un esfuerzo por promover esta herramienta, Lyrebird ha producido algunos ejemplos en donde puede escucharse la voz de Obama, Trump o Hillary Clinton. En este enlace pueden escucharse estas voces que dan claramente la entonación y tono de estos políticos.
La técnica usada en este caso es de nuevo una red neuronal artificial profunda, que funciona similar a una red neuronal biológica real dentro del cerebro humano. Esencialmente el algoritmo aprende a reconocer patrones en la voz de una persona en particular y reproduce estos patrones cuando simula la voz.
«Entrenamos nuestros modelos con un amplio conjunto de voces de miles de hablantes», dice José Sotelo, un miembro del equipo de Lyerbird y un experto en síntesis de voz. «Entonces, para cada nuevo hablante comprimimos la información en una llave pequeña que contiene lo que podría llamarse el ADN de la voz. Y usamos esa clave para decir nuevas oraciones».
Hay problemas en el resultado final, pero poco a poco este sistema evidentemente mejorará y probablemente en un futuro cercano esta tecnología podría usarse para simular voces de gente influyente diciendo cosas que nunca dijeron pero que ahora el sistema de inteligencia artificial puede simular perfectamente.
Una de las ventajas de la empresa Lyrebird es que usan mucho menos información por cada hablante para producir una nueva voz y esto trabaja en tiempo real. La empresa piensa ofrecer esta herramienta a las compañías que requieran de soluciones de síntesis de voz.
«Estamos haciéndonos de fondo para hacer crecer nuestro equipo de ingenieros», dice Sotelo, y agrega: «Estamos ya trabajando para mejorar la calidad del audio para que suene menos robótico. Esperamos empezar las pruebas beta pronto».
Es claro que esta tecnología tiene una serie de implicaciones éticas pes eventualmente un sistema de esta naturaleza podrá replicar la voz de cualquier persona de forma que lo haga con una precisión increíble, haciendo imposible para un ser humano discernir entre la voz de una máquina o la de una persona.
Podrían existir personas sin escrúpulos que quisieran sacar ventaja de un sistema así para hacerse de dinero de forma ilícita, por ejemplo, pero la gente de Lyrebird dice simplemente que la era en la que se confiaba en la palabra viva, la voz, incluso grabada, está llegando a su fin.
Pero más allá de los problemas éticos planteados, la tecnología de las redes neuronales sigue dando de qué hablar y está resultando un modelo impresionantemente certero para la Inteligencia Artificial.