VoCo, un Photoshop pero para audio de Adobe

La empresa Adobe es famosa por sus productos para la manipulación de imágenes. Photoshop es probablemente el estándar de la industria y ese sitio se lo ha ganado a pulso. Es uno de los mejores programas que existen en este nicho de mercado y además, ya lleva muchos años en este negocio.

Pero como toda empresa de software, saben que no se pueden quedar estáticos porque rápidamente habrá otros que quieran tomar su lugar, y la empresa trabaja en otros frentes. Por ejemplo, está el “Photoshop para audio”, una manera coloquial de decirle al nuevo proyecto, de acuerdo al desarrollador de Adobe, Zeyu Jin, quien habló en la Conferencia Adobe MAX, en San Diego, California hace varios días.

El software que se está desarrollando se llama VoCo y aunque no está claro si esto desembocará en un producto comercial, una de sus características más interesantes es que tiene la capacidad de añadir palabras habladas a un archivo de audio aunque éstas no se hayan dicho en el mismo. Es decir, puede producir palabras que se escuchen como si quien habla en un audio las hubiese dicho. Esto representa un avance extraordinario en la edición de audio, pero también presenta algunas dificultades éticas.

El proyecto está patrocinado por Adobe Research y la Universidad de Princeton. Como en Photoshop, el proyecto VoCo está diseñado para ser la aplicación del “estado del arte” en la edición de audio. Y más allá de las características de cancelación de ruido o edición del habla, el proyecto aparentemente puede generar nuevas palabras en audio que pueden ser insertadas en el archivo como si las hubiese dicho quien grabó algunas otras palabras.

Esto significa que el software puede entender de alguna manera el tono de voz del hablante y replicarlo de manera que pueda decir palabras generadas por la computadora como si fuese la persona que estaba hablando. Para ello es esencial que el sistema “escuche” por unos 20 minutos las palabras de algún hablante para después poder imitar perfectamente su tono de voz y hacernos creer que es la persona que habla. Es una replicación de la voz del hablante casi perfecta.

“Cuando se graban diálogos y narraciones, las personas con frecuencia quisieran cambiar o insertar un par de palabras quizá por errores cometidos o porque simplemente les gustaría cambiar parte de la narrativa”, dice el comunicado de Adobe. “Hemos desarrollado una tecnología llamada VoCo que puede simplemente escribir una o más palabras que le gustaría que se cambiasen y se pueden insertar en el audio. El algoritmo hace el resto y suena como si el que grabó originalmente la narración hubiese dicho esas palabras”, añade.

Un problema ético que enseguida brinca es la posibilidad de falsificar oraciones enteras usando la voz de una persona, pero ya Adobe ha aclarado que al igual que con algunas imágenes sorprendentes, que probablemente sean producto de la edición y no de haberlas tomado directamente, hay que andarse siempre con cuidado, sobre todo sospechar de aquello que suene poco sensato, extraño, o fuera de lugar (de acuerdo al contexto).

Como sea, este sin duda es probablemente uno de los avances más significativos en lo que se refiere a la edición de audio.

Referencias: Creative Bloq, The Verge