Hoy en día hablamos de autos que se conducen solos, que son manejados por hardware y software especializado que quizás pronto nos conviertan en pasajeros sin necesidad ya de convertirnos en conductores. Para ello se utilizan algoritmos muy sofisticados que ven los caminos, reconocen los objetos posibles alrededor de este entorno y eventualmente permiten que el coche se conduzca sin la necesidad de un chofer humano.
Sin embargo, programar una computadora para que reconozca objetos no es una labor trivial y los automóviles autónomos lo pueden hacer porque hay un contexto, que son los caminos, las calles, los semáforos, es decir, un entorno que permite identificar lo que ocurre alrededor y así tomar acciones programadas.
Pero esto no ocurre con el sistema de visión humana y lo que el cerebro interpreta, que puede ser de todo tipo de entornos y que de manera sombrosa, el cerebro reconoce lo que ve. ¿Cómo lo hace? Esto es un problema no resuelto desde la perspectiva de la tecnología, la biología, las neurociencias, etcétera. Vamos, los científicos no saben cómo es que el cerebro reconoce lo que ve.
En el Instituto Salk, los investigadores han analizado como las neuronas, en una parte crítica del cerebro llamada V2, responden a las escenas naturales, dando así más luz sobre cómo se procesa la visión. Este trabajo se describe en Nature Communications, Junio 8, 2017.
«Entender cómo el cerebro reconoce los objetos visuales es importante no solamente en los términos de la visión, sino porque nos da una ventana a sobre cómo trabaja el cerebro en general», dice Tatyana Sharpee, una profesora asociada en el Laboratorio Computacional de Neurobiología y uno de los autores importantes del artículo publicado.
«Mucho de nuestro cerebro está compuesto de una unidad computacional repetitiva, llamada columna cortical. En la visión especialmente, podemos controlas las entradas al cerebro con precisión exquisita, lo que hace posible que se puedan analizar las señales cuantitativamente, transformándose en el cerebro», añade la investigadora.
Y aunque muchas veces vemos la habilidad de ver como algo natural, la capacidad se puede derivar de un conjunto complejo de transformaciones matemáticas que no se pueden aún reproducir en la computadora, de acuerdo a Sharpee. De hecho, más de una tercera parte del cerebro se dedica exclusivamente a la tarea de analizar las escenas que ve.
Nuestra percepción visual empieza en el ojo, con luz y pixeles oscuros. Estas señales se mandan a la parte trasera del cerebro a una región llamada V1, donde se transforman y corresponden a los bordes en las escenas que vemos. De alguna manera, como resultado de una serie de transformaciones subsecuentes de esta información, podemos conocer caras, automóviles y otros objetos incluso cuando se están moviendo. Qué tan preciso es este reconocimiento es simplemente un misterio debido en parte a que las neuronas codifican los objetos de formas complicadas.
Ahora Sharpee y Ryan Rowekamp, un investigador post doctoral asociado al grupo de Sharpee, ha desarrollado un método estadístico que toma estas respuestas complejas y las describe en una forma interpretable, que podría ser usada para ayudar a decodificar la visión en los sistemas simulados de visión por computadora. Para desarrollar este modelo, el equipo usó los datos accesibles públicamente de las respuestas de primates viendo imágenes de escenas naturales (como paisajes o bosques), de la base de datos CRCNS (Collaborative Research in Computational Neuroscience).
«Aplicamos nuevas técnicas estadísticas para poder darnos cuenta qué características de las películas causaban que la neuronas V2 cambiaran sus respuestas», dice Rowekamp. «Interesante es que encontramos que las neuronas V2 responden a combinaciones de bordes».
El equipo reveló que el proceso de información visual de las neuronas V2 trabaja de acuerdo con tres p5incipios: primero, combinan bordes que tienen orientación similar, incrementando la robustez de la percepción a pequeños cambios en la posición de curvas que forman los bordes de los objetos. Segundo, si una neurona es activada por un borde de una región particular con cierta orientación y posición, entonces la orientación a 90 grados se suprime de esta posición, lo que hace algo que han denominado: «supresión de la orientación cruzada».
Esta combinación se ensambla de muchas maneras para que podamos ver diferentes bordes. El equipo encontró que este esquema era esencial para permitirnos detectar bordes con precisión. El tercer principio es que los patrones relevantes se repiten en el espacio de forma que pueden ayudar a percibir superficies con texturas de árboles y agua, así como los límites entre ellos, como se ve por ejemplo en una pintura impresionista.
Los investigadores incorporaron los tres principios en un modelo que llamaron «Modelo Cuadrático Convolucionado» (donde la convolución en Proceso Digital de Imágenes es simplemente un promedio de pixeles con pesos asociados a una vecindad establecida), el cual puede ser aplicado a los datos experimentales. El procesamiento visual parece ser pues muy similar a cómo el proceso huele, toca o siente, piensan los investigadores, de manera que el trabajo podría dar más información sobre cómo se procesan los datos en estos campos también.
«Los modelos con los que he trabajado antes no eran totalmente compatibles con los datos», dice Rowekamp y agrega:
«Por ello fue muy satisfactorio cuando la idea de combinar el reconocimiento de bordes con sensibilidad a la textura empezó a dar resultados como una herramienta para analizar y entender los datos complejos visuales».
«Parece ser que todo el tiempo estamos añadiendo elementos a la computación que se encuentra en los algoritmos que hemos creado para hacer visión por computadora a la manera del cerebro, lo que hace que mejore el desempeño».
Referencias: MedicalXpress