Mediante un algoritmo de aprendizaje profundo, investigadores han producido videos en los cuales aficionados al baile sin entrenamiento previo pueden bailar con la maestría de las estrellas del pop, hacer piruetas como los expertos de las artes marciales y girar con la gracia de una bailarina.
Caroline Chan, Shiry Ginosar, Tinghui Zhou y Alexei A. Efros, de la Universidad de Berkeley, en California, llegaron a un método de transferir el movimiento: «haz como yo hago». dados dos videos, una de las personas (el objetivo), genera los movimientos estándar que más adelante aparecen desempeñándose con una habilidad fuera de sus posibles capacidades. Por otra parte tenemos un sujeto (la fuente), que se mueve e impone ese movimiento a la persona objetivo, en donde el movimiento se transfiere entre estos dos sujetos a través de un mecanismo de pixel a pixel, de cada imagen fuente a la imagen objetivo.
Para poder trasferir el movimiento entre la fuente y el objetivo, de una manera de marco de referencia a marco de referencia, en donde se requiere un mapeo entre las imágenes de dos individuos. Sin embargo, hay a veces imágenes que no corresponden a los dos sujetos desempeñando los mismos movimientos en la misma rutina, por lo que no hay una correspondencia exacta ya que los cuerpos y diferencias de estilo son únicos para cada sujeto. Así, se usan puntos claves, que codifican la posición de los cuerpos pero no su apariencia, lo que sirve como una representación intermedia entre cualquier dos sujetos y las figuras que usa.
Por lo que se refiere al video objetivo, la detección de poses para cada cuadro se obtiene mediante un conjunto de poses e imágenes de la persona objetivo, los cuales se alinean y esto es suficiente para aprender el modelo de trasladar una imagen a la otra de cada figura en el baile, todo de una manera supervisada.
Hay dos componentes más que mejoran la calidad de los resultados: para que el video sea «suave», es decir, no haya movimientos bruscos, se hace una predicción a partir de los pasos anteriores. Para incrementar el realismo facial, una red neuronal especializada genera el rostro de la persona.
Los investigadores concluyen: «Nuestro método produce videos en donde la transferencia de movimiento entre una variedad de sujetos en el video se puede hacer sin la necesidad de usar 3D o captura de movimientos. Nuestra mayor contribución es en el mecanismo de aprendizaje para transferir el movimiento humano entre videos y la calidad de nuestros resultados demuestra que la transferencia de movimiento complejo es realista y detallada en el video resultante».
El artículo completo puede leerse aquí.