El software no tiene límites. Hoy en día, se pueden hacer videos en donde aparecen personas que nunca estuvieron en un lugar determinado o incluso formando parte de situaciones comprometedoras.
Y ahora hay un nuevo algoritmo «deep fake» capaz de procesar el audio y el video en un nuevo archivo para que la persona que «hable» en la imagen diga más o menos lo que se ha escrito.
Esto es un trabajo colaborativo entre un equipo de la Universidad de Stanford, el Instituto Max Planck para la informática, la Universidad de Princeton y Adobe Research, quienes aseguran que la tecnología se podría usar para eliminar la necesidad de re-grabar a un actor cuando se equivoca.
Un método complejo
Para entender y aprender los movimientos del rostro de quien habla en un video, el algoritmo necesita 40 minutos de entrenamiento y una transcripción de lo que se ha dicho. Los 40 minutos de análisis del video le dan al software la oportunidad de estudiar exactamente las caras que hace el sujeto cada vez que ejecuta un fonema en el guión original.
A partir de esto, el algoritmo tiene que crear un modelo 3D del rosto haciendo los nuevos gestos que se necesiten y, a partir de ahí, se usa una técnica de aprendizaje de máquina llamada «Neural Rendering» que puede pintar el modelo 3D de forma foto-realista para que se vea indistinguible del modelo real.
El siguiente video explica (en inglés), cómo funciona el método:
Hay otro tipo de software, como VoCo, que puede ser usado para generar el audio de quien habla y sigue el mismo enfoque, cortando el audio del entrenamiento en fonemas y usando este conjunto de datos para generar nuevas palabras en una voz más familiar.
El equipo de desarrollo sabe que el potencial del software es tal que bien podría usarse de forma poco ética.
Un escenario posible podría darse en el 2020, cuando haya elecciones en los Estados Unidos aunque en términos generales, el mal uso de este software podría tener gran impacto en audiencias poco educadas sobre la tecnología.
¿Cómo saber si es falso?
El equipo de desarrollo busca soluciones a este problema, por ejemplo, poner en el video editado una marca de agua que indique que es falso, aunque esto posiblemente pueda ser cambiado por algún hábil programador y así posibilitar el uso no ético del software.
Otra idea es el desarrollar mejores «herramientas forenses» para saber si un video fue editado o no. Para esto podría usarse un registro permanente como el que se utiliza en el ahora tan popular blockchain, aunque no está claro cómo podría implementarse globalmente.
Finalmente, hay intentos de tratar de discernir videos falsos de reales y para ello se podría usar una red neuronal adversarial, en la cual dos redes compiten una contra la otra, la primera generando falso tras falso y la otra tratando de ver cuáles son los reales y cuáles no. Después de millones de generaciones, la red podría discernir la verdad.