Mediante la técnica de aprendizaje reforzado se puede enseñar a una computadora a pintar como un artista oriental. Se van a sorprender cuando vean los resultados.
La técnica de pintura de tinta oriental llamada Sumi-e es automáticamente reconocida sin importar en qué parte del mundo uno se encuentre. La diferencia contra el estilo más occidental para pintar es que el primero se basa en el uso de capas de pinceladas para construir una imagen Sumi-e, la cual se reduce en cantidad de pinceladas que se pueden dar. Es de hecho un enfoque minimalista en términos del total de pinceladas aceptables.
Debido a lo anterior, es importate hacer el uso óptimo de cada pincelada para plasmar exactamente lo visto. Las pinceladas Sumi-e varían en grosor y estilo durante el mismo trazo. La apariencia se determina por la forma del objeto a pintar, la trayectoria y la postura del pincel, así como la distribución de los pigmentos en el mismo. Como ya imaginarán, toma tiempo aprender a usar un pincel para crear un tipo de pincelada específico.
En un análisis en el que se intenta simular un tipo de pintura en particular, los investigadores en general tratan de reproducirlo con base en filtros gráficos. Sin embargo, un interesante enfoque, diferente al mencionado, se les ocurrió a tres investigadores del Instituto de Tecnología de Tokio, quienes intentaron enseñarle a la computadora a pintar usando aprendizaje reforzado.
Éste es un procedimiento de dar una recompensa cuando el agente se acerca incrementalmente al objetivo de hacer el trabajo correctamente. El programa modela un agente que es un pincel que hace decisiones secuenciales sobre a qué dirección hay que moverse y es recompensado de acuerdo a la gracia de sus pinceladas sobre formas de dibujo arbitrarias. Una vez entrenado, el agente puede intentar dibujar sobre formas específicas.
Los detalles técnicos hablan de un espacio de estados, modelado por un proceso de decisión markoviano (MDP por sus siglas en inglés). Un método de un gradiente es quien aprende la trayectoria óptima y el gradiente es quien maximiza la recompensa en el trazo.
El espacio de estados controla la posición, la orientación y la tinta cargada en el pincel. La recompensa es función de qué tan suave es el trazo dado con el pincel. El conjunto de entrenamiento fue de 80 tipos de pincel comúnmente utilizados en la pintura a tinta oriental. Los bordes de cada trayectoria deben ser usados por los agentes de los pinceles para reproducir de la forma más suavemente posibles los trazos.
Una vez que el agente del pincel fue entrenado, se usó para crear pinturas de tintas con fotos. Los contornos que siguen los pinceles fueron generados manualmente, por lo que el resultado final es menos autónomo que lo que los investigadores nos quieren hacer creer. No obstante, el resultado se supone bueno.
Referencia: Artist Agent: A Reinforcement Learning Approach to Automatic Stroke Generation in Oriental Ink Painting