¿Un sistema automático para leer los labios?

Yo tengo un amigo que en algún momento de su vida tuvo un accidente, del cual salió ileso aparentemente, pero con el tiempo, empezó a notar que había perdido cierta capacidad auditiva. Recuerdo que alguna vez me di cuenta que no me escuchaba, pero que atentamente leía mis labios. Así, de alguna manera “escondía” su dificultad o simulaba quizás no tenerla. Finalmente se operó ambos oídos y parece recuperó su audición normal.

Pero lo interesante aquí es que la tecnología está atacando este tema. ¿Se puede hacer un programa que lea los labios? Es un enorme reto. En el siglo 16 un monje español benedictino, llamado Pietro Ponce, se convirtió en el pionero del arte de leer los labios. Y aunque probablemente hubo algunos antes que él, quizás Ponce fue el primero en poder leer los labios con éxito.

Esta técnica, como ya dijimos, la usan algunas personas que han perdido por alguna razón su capacidad auditiva. Pero curiosamente, en algunas conversaciones de prueba, se ha demostrado que a veces la comunicación mejora porque los interlocutores de alguna manera leen inconscientemente los labios de los otros para entender mejor lo que están diciendo. Esto es una buena motivación para preguntarse entonces: ¿Se puede hacer un sistema automático por computadora que pueda leer los labios? Y si es así, ¿podría este enfoque causar algunos problemas relativos a la privacidad?

Ahora se tienen algunas respuestas gracias al trabajo de Ahmad Hassanat, de la Universidad Mu’tah en Jordania. Él ha bosquejado los retos que los investigadores enfrentan en el campo de la lectura automática de los labios, conocido también como el reconocimiento del habla de forma visual. Para que este problema sea resuelto adecuadamente, hay que librar algunas dificultades importantes: El proceso fundamental de la lectura de los labios es reconocer la secuencia de imágenes que forman con la boca y entonces asociarla a una palabra o a una secuencia de palabras.

Hay un reto significativo aquí. Durante el habla, la boca crea entre 10 a 14 formas diferentes, conocidas como “visemas”. En contraste, el habla contiene unos 50 sonidos individuales conocidos como fonemas. Por lo que un visema puede representar diferentes fonemas. Y aquí reside el peor problema. Una secuencia de visemas no puede asociarse a una palabra única o a una secuencia de palabras. En lugar de eso, una secuencia de visemas puede tener diferentes soluciones. El reto para un lector de abios es elegir el visema adecuado elegido por el hablante.

Otro problema se compone a partir del hecho de que los labios del hablante se oscurecen, por lo que el lector de labios solamente ve el 50 por ciento de las palabras habladas. El resultado es que el lector de labios no puede ser perfecto, incluso para los mejores expertos humanos en el tema. Los experimentos han mostrado lo dificil que es esto, incluso cuando se usa un vocabulario limitado. En pruebas usando los números del 1 al 9, tan simple como eso, los programas lectores de labios no pasaron de 50% de efectividad, es decir, no son lo suficientemente buenos.

Esto parecería indicar que las posibilidades de automatizar esto son pocas, pero Hassanat apunto a un cuerpo de investigación que crece cada vez más para atacar este problema, ayudado de mejoras en la visión por computadora en los años recientes. Hay que reconocer, en primera instancia la cara y los labios. Esto ha mejorado notablemente en años recientes. Un reto más complejo es reconocer, extraer y categorizar las características geométricas de los labios durante el proceso de hablar. Esto se hace midiendo la altura y anchura de los labios, así como otras características como la forma de la elipse alrededor de los labios, la cantidad visual de dientes observados y lo rojo en la imagen, que determina la cantidad de lengua que es visible.

Determinar el contorno exacto de los labios es difícil porque hay poca diferencia entre pixeles que muestran el rostro y los labios. Sin embargo Hassanat dice que esto no es necesario pues la altura y forma de la boca proveé una aproximación decente de los contornos reales: “creemos que no es necesario usar todo o parte del contorno de los puntos en los labios para definir la forma externa de los mismos”, indicó.

Muchos experimentos de Hassanat y otros han hallado otros problemas. Uno son las barbas y bigotes que pueden confundir los sistemas visuales de reconocimiento de habla. Consecuentemente, los sistemas parecen ser más exitosos con mujeres que con hombres. Otros problemas es que hay personas que son más expresivas con sus labios que otras y es así más fácil interpretar lo que están diciendo con el movimiento sólo de los labios. No obstante, algunas personas casi no mueven los labios y a este tipo se les ha llamado “personas sin habla visual”, lo que casi podrían indicarse como imposibles de interpretar.

Sin embargo, el sistema de reconocimiento visual de Hassanat es muy bueno. Sus experimentos han logrado un 76% de éxito aunque esto se ha hecho en condiciones controladas. La razón de éxito en mujeres es mayor y se asume que es porque no hay barbas ni bigotes, como ya se indicó. Pero todo esto sugiere que hay un potencial interesante para este tipo de tecnología.

Sin duda esto además plantea problemas en el terreno de la privacidad. ¿Qué tal que un sistema automático lea los labios de alguien vía una cámara de circuito cerrado? ¿No está invadiendo la privacidad de dicho individuo?

Referencias:

Reconocimiento visual del habla
Technology review