Las limitaciones del aprendizaje profundo

¿Qué tan inteligentes son las computadoras que usan redes neuronales de aprendizaje profundo? ¿Qué tan parecidas son a la comparación evidente, la de un cerebro humano? Sin duda tenemos sistemas que mejoran continuamente pero parece ser que estamos lejos de emular lo que nuestro cerebro puede hacer. Esto es la conclusión de un grupo de psicólogos cognitivos de la Universidad de California en Los Angeles, y que reportan en PLOS Computational Biology.

En los últimos años hemos visto el gran entusiasmo que han tenido este tipo de redes para resolver un número interesante de problemas e incluso tareas que las personas hacen. Sin embargo, los resultados de cinco experimentos en este estudio mostraron que es fácil engañar a la red y que los métodos de identificación de dichas redes, usando visión por computadora, difieren sustancialmente de la visión humana. «Las máquinas tienen severas limitaciones que estamos tratando de entender», comenta Philip Kellman, un profesor de psicología de UCLA.

Por ejemplo, en el primer experimento, los psicólogos mostraron, a una de las mejores redes de aprendizaje profundo, llamada VGG-19, imágenes en color de animales y objetos. Las imágenes habían sido alteradas. Por ejemplo, la superficie de una pelota de golf se desplegaba como el contorno de una tetera. Las rayas típicas de las cebras se pusieron sobre un camello, etcétera. VGG-19 pudo hallar 5 de 40 objetos en su primera oportunidad con cada uno.

«Es muy fácil engañar a estos sistemas», comentó Hongjing Lu, un profesor de psicología de la UCLA. «Sus mecanismos de aprendizaje son mucho menos sofisticados que los de la mente humana». Por ejemplo, VGG-19 reconoció que la imagen de la tetera era una pelota de golf, porque se dio cuenta el programa en la textura y fue lo que le dio la pista para ello. «Los humanos identificamos primariamente por la forma», dice Kellman. Los investigadores sospechan que la red neuronal estaba usando un método diferente.

En un segundo experimento, los psicólogos mostraron imágenes de figuras de cristal a VGG-19 y a una segunda red neuronal de aprendizaje profundo. VGG-19 se había desempeñado mejor en todos los experimentos en donde ambas redes se pusieron a prueba. Ambas redes estaban entrenadas para reconocer objetos usando una base de datos de imágenes llamada ImageNet.

Sin embargo, en el caso de las figuritas de cristal, ambas redes se desempeñaron muy pobremente. Ni VGG-19 o AlexNet, pudieron identificar las figuras en el primer intento. Por ejemplo, la figura de un elefante tenía una calificación de 0% de ser un elefante en ambas redes. Los resultados dados por VGG-19 incluso sorprendieron a los investigadores porque no entendieron por qué la máquina decía que un abridor de latas era un oso polar. AlexNet pudo resolver correctamente 328 figuras, de 1000 que se le presentaron. «Las máquinas hacen errores muy diferentes a los que cometen los seres humanos», comentó Lu.

En un tercer experimento, los investigadores mostraron 40 dibujos bosquejados en negro con imágenes en blanco. Las dos redes tuvieron un pobre desempeño. Se supone que los resultados podrían decir si las redes estaban usando la forma del objeto para saber qué era.

«Hay que decir que la meta de los experimentos no era engañar a los sistemas, sino aprender cuando las redes pueden identificar como lo hacen los seres humanos o si lo hacen de alguna otra manera», dice Gennady Erlikhman, un estudiante de postdoctorado en psicología en UCLA.

En el cuarto experimento, los investigadores mostraron a las redes 40 imágenes sólidas en negro. Aquí las redes neuronales lo hicieron mucho mejor, eligiendo correctamente en el 50% de los objetos.

En el último experimento, los investigadores revolvieron las imágenes para que fuesen más difíciles de reconocer, pero se preservaban las piezas de los objetos. Seleccionaron seis imágenes y VGG-19 reconoció correctamente cinco de ellas. Esta tarea es incluso difícil para los seres humanos.

La conclusión fue esta: Los seres humanos ven los objetos completos mientras que las redes identifican fragmentos de los objetos.

También te puede interesar