Un programa que lee los labios mejor que los seres humanos

La Inteligencia Artificial (IA) es noticia cada vez más frecuente. Los éxitos de esta ciencia empiezan a verse en un número importante de las actividades de los seres humanos. Los programas “inteligentes” juegan ya mejor ajedrez, Go y Póker, que los seres humanos. También pueden diagnosticar enfermedades de manera más precisa que los médicos especialistas. Ahora ya hay autos que se manejan solos, sin chofer. Las cosas pues, avanzan significativamente.

Hay campos, sin embargo, que parecieran que fuesen mucho más complejos como para ser atacados por la IA. Por ejemplo, la lectura de los labios es una ciencia inexacta. El problema es que muchos de los sonidos generados en el habla no se ven y se calcula que solamente el 30% de todo lo que hablamos podemos discernirlo fácilmente leyendo los labios. Por ello científicos de la Universidad de Oxford se han asociado con DeepMind, de Google, para desarrollar IA que podría ayudar a quienes no pueden escuchar. Para ello han desarrollado “Watch, Attend and Spell” (WAS), que lee mejor los labios que incluso los expertos en el tema.

La precisión de la lectura de labios varía, pero algo es claro: está lejos de ser perfecta para poder interpretar el habla. En un artículo previo, los científicos de Oxford reportaron que en promedio, las personas que tienen discapacidad auditiva leen los labios y logran un 52.3% de precisión. Por otra parte, los investigadores de Georgia Tech dicen que solamente el 30% de todo lo que se dice es visible a los labios.

Pero sea como sea, el software escrito puede ya automatizar la tarea de leer los labios y además, su precisión podría tener un impacto importante en las personas sordas. El equipo de Oxford y Google buscan desarrollar un mejor sistema que pueda dar resultados incluso mucho más precisos. Los investigadores usaron una red neuronal profunda y algoritmos de aprendizaje, además de enseñarle a la computadora a ver videos para más o menos unas 5000 horas de grabaciones de la BBC. Los videos incluyeron más de 118 mil oraciones, así como un vocabulario de unas 17,500 palabras, habladas por más de 1000 personas diferentes.

Entonces pusieron a WAS a prueba contrastando los resultados con un experto humano en la lectura de los labios, mostrándole un video sin sonido en donde solamente se podía ver los labios de la persona que hablaba. El experto humano leyó correctamente 12% de las palabras, mientras que WAS logró 50% de las palabras de forma correcta. Los errores cometidos fueron menores, de acuerdo a los investigadores, en donde por ejemplo, faltaba una ‘s’ al final de la palabra o bien, poniendo una palabra mal escrita por una sola letra mal interpretada.

Los investigadores piensan que en la medida que el programa adquiera más entrenamiento, más precisión en la lectura de los labios podrá tener. Es cuestión de seguir trabajando en este aspecto del problema.

“La tecnología de IA para leer los labios podría mejorar la precisión y velocidad de los sistemas de “speech-to-text” (hablar y pasar a texto), especialmente en ambientes ruidosos. Apelamos a que se haga más investigación en esta área esperando ver pronto nuevos avances”, dijo Jesal Vishnuram, gerente de investigación tecnológica de la caridad británica para la discapacidad auditiva.

El artículo describiendo el sistema puede verse aquí.

Referencias: New Atlas, Oxford University