Google acaba de anunciar su propio generador de imágenes a partir de texto, con una mejora de calidad importante con respecto a otros generadores del mercado.
Pues han desarrollado un sistema AI que ofrece un grado de fotorrealismo sin precedentes y un nivel profundo en cuanto a la comprensión del lenguaje.
Hasta el día de hoy, el líder de este mercado ha sido DALL-E 2, un programa desarrollado por OpenAI en el 2021 y que ha recibido su última actualización en abril de este año.
Sin embargo, Google ha llegado a desbancar a este gigante tecnológico y presenta «Imagen», su nueva AI capaz de generar imágenes a partir de una pequeña descripción.
Y aunque el funcionamiento de «Imagen» es muy similar al de DALL-E 2, existen algunas diferencias importantes que hacen que los resultados sean más precisos.
Innovaciones del nuevo sistema AI de Google
El nuevo sistema AI de Google para generar imágenes ultrarrealistas a partir de texto ha mejorado significativamente la comprensión del lenguaje para ofrecer resultados más exactos.
«Nuestro descubrimiento clave es que los modelos genéricos de lenguaje grande (p. ej. T5), preentrenados en cuerpos de solo texto, son sorprendentemente efectivos para codificar texto para la síntesis de imágenes: aumentar el tamaño del modelo de lenguaje en Imagen aumenta tanto la fidelidad de la muestra como la alineación imagen-texto mucho más que aumentar el tamaño del modelo de difusión de imágenes»
Incluso se utilizó un punto de referencia llamado «DrawBench» que prueba sistemáticamente la composición y la relación espacial entre las imágenes y las palabras, para comparar «Imagen» con otros modelos que realizan la misma tarea.
Y resultó que los evaluadores humanos prefieren a «Imagen» de Google sobre los otros métodos (DALL-E 2, VQ-GAN+CLIP) tanto en la alineación imagen-texto como en la fidelidad de la imagen.
¿Está disponible para el público?
Desafortunadamente, «Imagen» de Google no se encuentra disponible para el público en este momento, justo como sucede también con DALL-E 2.
Pues consideran que hay algunos temas que se deben resolver antes de estar disponible para todos los usuarios como el contenido indeseable con imágenes pornográficas o lenguaje tóxico.
O el hecho de que el conjunto de datos que se extraen con estos generadores de imágenes muchas veces «reflejan estereotipos sociales, puntos de vista opresivos y asociaciones despectivas».
«Imagen ha heredado los sesgos y limitaciones sociales de los grandes modelos lingüísticos y puede representar estereotipos y representación perjudiciales»
Sin embargo, la herramienta AI se puede probar en su sitio web de forma limitada. Ahí los usuarios podrán generar una imagen a partir de frases preestablecidas.
Así que ya lo sabes, esta es tu oportunidad para experimentar con una excelente herramienta de AI desarrollada por Google.