En los últimos dos años, los generadores de imágenes impulsados por IA se han mercantilizado, más o menos, gracias a la disponibilidad generalizada de la tecnología y a la disminución de las barreras técnicas. Han sido implementadas por prácticamente todos los principales actores tecnológicos, incluidos Google y Microsoft, así como por innumerables nuevas empresas que buscan una porción del pastel de IA generativa cada vez más lucrativo.
Eso no quiere decir que sean consistentes todavía, en cuanto al rendimiento, ni mucho menos. Si bien la calidad de los generadores de imágenes ha mejorado, ha sido un progreso incremental, a veces angustioso.
Pero Meta afirma haber tenido un gran avance.
Hoy, Meta anunció CM3Leon («camaleón» en torpe leetspeak), un modelo de IA que, según la compañía, logra un rendimiento de vanguardia para la generación de texto a imagen. CM3Leon también se distingue por ser uno de los primeros generadores de imágenes capaces de generar subtítulos para imágenes, sentando las bases para modelos de comprensión de imágenes más capaces en el futuro, dice Meta.
“Con las capacidades de CM3Leon, las herramientas de generación de imágenes pueden producir imágenes más coherentes que siguen mejor las indicaciones de entrada”, escribió Meta en una publicación de blog compartida con TechCrunch a principios de esta semana. “Creemos que el sólido desempeño de CM3Leon en una variedad de tareas es un paso hacia la generación y comprensión de imágenes de mayor fidelidad”.
La mayoría de los generadores de imágenes modernos, incluidos DALL-E 2 de OpenAI, Imagen de Google y Stable Diffusion, se basan en un proceso llamado difusión para crear arte. En difusión, un modelo aprende a restar gradualmente el ruido de una imagen inicial hecha completamente de ruido, acercándola paso a paso al indicador de destino.
Los resultados son impresionantes. Pero la difusión es computacionalmente intensiva, lo que hace que su operación sea costosa y lo suficientemente lenta como para que la mayoría de las aplicaciones en tiempo real no sean prácticas.
CM3Leon es un modelo transformador, por el contrario, aprovecha un mecanismo llamado «atención» para sopesar la relevancia de los datos de entrada, como texto o imágenes. La atención y otras peculiaridades arquitectónicas de los transformadores pueden aumentar la velocidad de entrenamiento del modelo y hacer que los modelos se puedan paralelizar más fácilmente. En otras palabras, se pueden entrenar transformadores cada vez más grandes con aumentos significativos pero no inalcanzables en el cálculo.
Y CM3Leon está parejo más eficiente que la mayoría de los transformadores, afirma Meta, que requiere cinco veces menos cómputo y un conjunto de datos de entrenamiento más pequeño que los métodos anteriores basados en transformadores.
Curiosamente, OpenAI exploró los transformadores como medio de generación de imágenes hace varios años con un modelo llamado Image GPT. Pero finalmente abandonó la idea a favor de la difusión, y pronto podría pasar a la «coherencia».
Para entrenar a CM3Leon, Meta utilizó un conjunto de datos de millones de imágenes con licencia de Shutterstock. La más capaz de varias versiones de CM3Leon que Meta construyó tiene 7 mil millones de parámetros, más del doble que DALL-E 2. (Los parámetros son las partes del modelo aprendidas de los datos de entrenamiento y esencialmente definen la habilidad del modelo en un problema, como generar texto o, en este caso, imágenes).
Una clave para el mejor desempeño de CM3Leon es una técnica llamada ajuste fino supervisado, o SFT, por sus siglas en inglés. SFT se ha utilizado para entrenar modelos de generación de texto como ChatGPT de OpenAI con gran efecto, pero Meta teorizó que también podría ser útil cuando se aplica al dominio de la imagen. De hecho, el ajuste de instrucciones mejoró el rendimiento de CM3Leon no solo en la generación de imágenes sino también en la escritura de leyendas de imágenes, lo que le permitió responder preguntas sobre imágenes y editar imágenes siguiendo instrucciones de texto (por ejemplo, «cambiar el color del cielo a azul brillante»).
La mayoría de los generadores de imágenes luchan con objetos «complejos» y mensajes de texto que incluyen demasiadas restricciones. Pero CM3Leon no lo hace, o al menos, no con tanta frecuencia. En algunos ejemplos cuidadosamente seleccionados, Meta hizo que CM3Leon generara imágenes utilizando indicaciones como «Un pequeño cactus con un sombrero de paja y gafas de sol de neón en el desierto del Sahara», «Una foto de primer plano de una mano humana, modelo de mano», «Un mapache principal». personaje en un anime que se prepara para una batalla épica con una espada samurái” y “Una señal de alto en un estilo de fantasía con el texto ‘1991’”.
En aras de la comparación, ejecuté las mismas indicaciones a través de DALL-E 2. Algunos de los resultados fueron similares. Pero las imágenes de CM3Leon en general se acercaron más al aviso y más detalladas a mis ojos, siendo la señalización el ejemplo más obvio. (Hasta hace poco, los modelos de difusión manejaban relativamente mal tanto el texto como la anatomía humana).
Generador de imágenes de Meta. Créditos de imagen: Meta
Los resultados de DALL-E 2. Créditos de imagen: DALL-E 2
CM3Leon también puede entender instrucciones para editar imágenes existentes. Por ejemplo, dada la indicación «Generar una imagen de alta calidad de ‘una habitación que tiene un lavabo y un espejo’ con una botella en la ubicación (199, 130)», el modelo puede generar algo visualmente coherente y, como dice Meta, “contextualmente apropiado”: habitación, fregadero, espejo, botella y todo. DALL-E 2 falla por completo en captar los matices de avisos como estos, a veces omitiendo por completo los objetos especificados en el aviso.
Y, por supuesto, a diferencia de DALL-E 2, CM3Leon puede seguir una variedad de indicaciones para generar subtítulos cortos o largos y responder preguntas sobre una imagen en particular. En estas áreas, el modelo se desempeñó mejor incluso que los modelos de subtítulos de imágenes especializados (por ejemplo, Flamingo, OpenFlamingo) a pesar de ver menos texto en sus datos de entrenamiento, afirma Meta.
Pero ¿qué pasa con el sesgo? Se ha descubierto que los modelos generativos de IA como DALL-E 2 refuerzan los sesgos sociales, después de todo, generando imágenes de puestos de autoridad, como «CEO» o «director», que representan en su mayoría a hombres blancos. Meta deja esa pregunta sin abordar y solo dice que CM3Leon «puede reflejar cualquier sesgo presente en los datos de entrenamiento».
“A medida que la industria de la IA continúa evolucionando, los modelos generativos como CM3Leon se vuelven cada vez más sofisticados”, escribe la compañía. “Si bien la industria aún se encuentra en sus primeras etapas de comprensión y abordaje de estos desafíos, creemos que la transparencia será clave para acelerar el progreso”.
Meta no dijo si, o cuándo, planea lanzar CM3Leon. Dadas las controversias que giran en torno a los generadores de arte de código abierto, no aguantaría la respiración.