Google ha lanzado un dispositivo que añade cierta inteligencia artificial a una Raspberry Pi Zero, convirtiendo una pequeña cámara en un sistema de visión de reconocimiento con redes neuronales. Considerando el hardware que usa, el sistema es asombroso y solamente cuesta 45 dólares además de no necesitar conexiones a la nube para realizar sus procesos. Todo se hace en el dispositivo.
Una Raspberry Pi Zero (que no se incluye en el kit) no pareciera tener la suficiente «galleta» para poder procesar redes neuronales, por lo que uno esperaría que el sistema usara servicios de la nube y eso significaría conectarse a servicios de Google. Sin embargo, no es así, a través de un sistema de visión AIY, el cual se basa en la unidad de procesamiento Intel Movidius MA2450, se puede ser capaz de implementar redes neuronales entrenadas. La MA2450 tiene interconstruido VisionBonnet, el cual es una expansión a la tarjeta Pi.
VisionBonnet puede calcular los resultados de aplicar una red neuronal a una imagen desde una cámara Raspberry Pi (tampoco incluida en el kit) a 30 cuadros por segundo. Viene con tres modelos pre-entrenados:
- Un modelo basado en MobileNets que puede reconocer miles de objetos comunes
- Un modelo para detección no solamente de rostros, sino de dar un valor numérico a las expresiones de felicidad, que van de «triste» a «hilarante».
- Un modelo para las tareas importantes para discernir entre gatos, perros y personas.
Qué tan útiles son estos modelos en alguna aplicación es difícil de decir, pero claramente parecen ser un punto de partida importante para el desarrollo de sistemas más complejos. Sin embargo, la parte más importante es que todo el cómputo se hace en la tarjeta Pi. Google ha puesto su código de TensorFlow para entrenar sus nuevos modelos. Una vez hecho esto, el modelo puede ser descargado dentro de VisionBonnet y éste reconocerá lo que usted le haya dicho que entrene. Esto es emocionante porque por primera vez se pueden tener dispositivos que usen redes neuronales en el nicho del Internet de las cosas y en los dispositivos llamados «inteligentes» en general.
Se pueden entrenar muchos modelos para hacer diferentes cosas y equipar así a un robot con un conjunto de ojos, cada uno sensible para un objeto particular o para un rango de objetos. Esto puede ser emocionante, pero no subestime el esfuerzo que se tiene que hacer para entrenar un nuevo modelo. Se necesitan miles de muestras etiquetadas y cientos de horas de GPU/CPU, lo cual no es barato. Y como TensorFlow no tiene que usar la nube de Google, se puede usar el servidor propio para hacer la tarea.
La única mala noticia es que todavía no está disponible, pero ya se ha prometido que para que en algún momento en diciembre se podrá conseguir en los Estados Unidos. Esperemos además que Google ponga VisionBonnet como un producto separado.