Investigadores de la Universidad Carnegie Mellon han desarrollado una manera automática de transformar el contenido de un video en el estilo de otro, haciendo posible, por ejemplo, transformar las expresiones faciales de un comediante como John Oliver al de un personaje de caricatura.
La manera en como se hace esto es a través del manejo de datos por lo que no se requiere intervención humana. De hecho, el sistema puede transformar unas cantidades enormes de video, lo que da la posibilidad que se use en la producción de películas. Puede usarse también para convertir películas en blanco y negro a color y para crear contenidos para experiencias en realidad virtual.
«Pienso que hay muchas historias que deben ser contadas», dijo Aayush Bansal, un estudiante de doctorado del Instituto de Robótica de la mencionada universidad. La producción de películas fue la primera motivación que le ayudo a crear un método, permitiendo que las películas se produzcan de manera más rápida y además, de forma más económica. «Es una herramienta para el artista, el cual da un modelo inicial que puede mejorar», añade.
La tecnología de video tiene además el potencial para hacer los videos llamados «deep-fakes», en donde la imagen de una persona es insertada en el video sin su permiso, y dicha persona aparece diciendo cosas que no dijo, indica Bansal. «esto fue una primera advertencia de que este tipo de videos falsos podían ser creados y tener un impacto», dice el doctorante. «Encontrar formas de detectar estos videos es algo importante para seguir adelante».
El siguiente video muestra la traslación de John Oliver a Stephen Colbert. Bansal presentará este método en el ECCV 2018, la Conferencia Europea de Visión por Computadora, que se llevará a cabo en Munich. El co-autor es Deva Ramanan, profesor asociado de robótica en Carnegie mellon.
El transferir el contenido de un video al estilo de otro se basa en la Inteligencia Artificial. En particular, en una clase de algoritmos llamados «generative adversarial networks (GANs)», que ha permitido a las computadoras entender cómo aplicar el estilo de una imagen a otra, particularmente donde no hay una correspondencia exacta.
En una GAN, se crean dos modelos: un discriminador que aprende a detectar lo que es consistente con el estilo de una imagen o video y un generador, que aprende cómo crear imágenes o videos que usan ciertas características de un estilo en particular. Cuando ambos trabajan de manera competitiva, el generador trata de engañar al discriminador y este a su vez mide la efectividad del generador. El sistema aprende eventualmente cómo el contenido puede ser transformado en cierto estilo.
Una variante, llamada cycle-GAN, completa el ciclo, de la misma manera que por ejemplo, se traduce el inglés al español y del español al inglés, y entonces se evalúa qué traducción es la que finalmente tiene sentido. Usando cycle-GAN para analizar las características espaciales de las imágenes se ha demostrado como efectivo para transformar una imagen en el estilo de una segunda.
El siguiente video muestra cómo se puede hacer una traducción de rostro a rostro, en este caso de Martin Luther King y Barack Obama.
Los efectos de video no están limitados a rostros o cuerpos. Los investigadores demostraron que el video de una flor que se abre puede ser usado para manipular la imagen de otras flores. Todos estos efectos bien podrían ser útiles para desarrollar autos que se conduzcan solos en la noche cuando hay mal tiempo.
Más información aquí.