Wuando el artista conceptual e ilustrador RJ Palmer fue testigo por primera vez del fotorrealismo perfeccionado de las composiciones producidas por el generador de imágenes de IA Dall-E 2, su sensación fue de inquietud. La herramienta, lanzada por la empresa de investigación de IA OpenAI, mostró una marcada mejora con respecto a Dall-E de 2021, y fue seguida rápidamente por rivales como Stable Diffusion y Midjourney. Escriba cualquier indicación surrealista, desde la rana Kermit al estilo de Edvard Munch hasta Gollum de El Señor de los Anillos dándose un festín con una rodaja de sandía, y estas herramientas devolverán una descripción sorprendentemente precisa momentos después.
Internet se deleitó con las oportunidades de creación de memes, con una cuenta de Twitter que documentaba «generaciones extrañas de Dall-E» acumulando más de un millón de seguidores. Cosmopolita pregonó la primera portada de una revista del mundo generada por IA, y los inversores en tecnología se volcaron para saludar en la nueva era de la «IA generativa». Las capacidades de generación de imágenes ya se han extendido al video, con el lanzamiento de Imagen Video de Google y Make-A-Video de Meta.
Pero la nueva destreza artística de AI no fue recibida con tanto entusiasmo por algunos creativos. “La principal preocupación para mí es lo que esto le hace al futuro no solo de mi industria, sino de las industrias humanas creativas en general”, dice Palmer.
Al ingerir grandes conjuntos de datos para analizar patrones y crear modelos predictivos, la IA ha demostrado durante mucho tiempo que es superior a los humanos en algunas tareas. Es este nous de cálculo de números lo que llevó a una IA a derrotar al campeón mundial de Go en 2016, calculando rápidamente la estrategia de juego más ventajosa y sin miedo a ejecutar movimientos que habrían provocado burlas si hubieran venido de una persona. Pero hasta hace poco tiempo, producir productos originales, especialmente trabajos creativos, se consideraba una actividad claramente humana.
Las mejoras recientes en AI han cambiado el dial. Los generadores de imágenes de IA ahora no solo pueden transponer frases escritas en imágenes novedosas, sino que también se han logrado avances en la generación de voz de IA: modelos de lenguaje grandes como GPT-3 han alcanzado un nivel de fluidez que convenció al menos a un investigador de Google recientemente despedido de sensibilidad de la máquina. Conecte la obra de Bach y una IA puede improvisar música con más o menos el mismo estilo, con la salvedad de que a menudo sería imposible que una orquesta humana la tocara.
Esta clase de tecnología se conoce como IA generativa y funciona a través de un proceso conocido como difusión. Esencialmente, se juntan grandes conjuntos de datos para entrenar a la IA y, a través de un proceso técnico, la IA puede diseñar contenido nuevo que se parece a los datos de entrenamiento pero no es idéntico. Una vez que ha visto millones de imágenes de perros etiquetados con la palabra «perro», es capaz de establecer píxeles en la forma de un cachorro completamente nuevo que se parece lo suficiente al conjunto de datos como para que no tengamos problemas para etiquetarlo como un perro. No es perfecto: las herramientas de imagen de IA todavía tienen dificultades para representar manos que parecen humanas, las proporciones del cuerpo pueden estar mal y tienen la costumbre de producir escritura sin sentido.
Si bien los usuarios de Internet han adoptado este potencial creativo sobrealimentado, armados con el mensaje correctamente refinado, incluso los novatos ahora pueden crear impresionantes lienzos digitales, algunos artistas se han resistido a la capacidad de imitación de la nueva tecnología. Entre las indicaciones ingresadas en los generadores de imágenes Stable Diffusion y Midjourney, muchas etiquetan el nombre de un artista para garantizar un estilo estéticamente más agradable para la imagen resultante. Algo tan mundano como un cuenco de naranjas puede volverse llamativo si se representa al estilo, por ejemplo, de Picasso. Debido a que la IA ha sido entrenada en miles de millones de imágenes, algunas de las cuales son obras con derechos de autor de artistas vivos, generalmente puede crear una aproximación bastante fiel.
Algunos están indignados por lo que consideran un robo de su marca artística. Greg Rutkowski, un artista conceptual e ilustrador muy conocido por sus escenas de fantasía épica infundidas con luz dorada, ya ha sido mencionado en cientos de miles de indicaciones utilizadas en Midjourney y Stable Diffusion. “Ha sido sólo un mes. ¿Qué tal en un año? Probablemente no podré encontrar mi trabajo por ahí porque [the internet] estará inundado con arte de IA”, dijo Rutkowski Revisión de tecnología del MIT. «Eso es preocupante».
Dall-E 2 es una caja negra, con OpenAI negándose a liberar el código o compartir los datos en los que se entrenaron las herramientas. Pero Stable Diffusion ha optado por abrir su código y compartir detalles de la base de datos de imágenes utilizadas para entrenar su modelo.
Spawning, un colectivo de artistas, ha creado una herramienta llamada Have I Been Trained? para ayudar a los artistas a descubrir si sus obras de arte se encontraban entre los 5.800 millones de imágenes utilizadas para entrenar Stable Diffusion, y para optar por aparecer o no en futuros conjuntos de entrenamiento. La compañía detrás de Stable Diffusion, Stability AI, ha dicho que está abierta a trabajar con la herramienta. De los 1.800 artistas que ya se han registrado para usar la herramienta, Matthew Dryhurst, académico y miembro de Spawning, dice que hay una división de 60/40 a favor de la exclusión voluntaria.
Pero la Concept Art Association (CAA) destaca que el daño ya está hecho esta vez, porque las herramientas ya han sido entrenadas en el trabajo de los artistas sin su consentimiento. “Es como si alguien que ya te robó te dijera: ‘¿Quieres optar por que no te robe?’”, dice Karla Ortiz, ilustradora y miembro de la junta de CAA.
Emad Mostaque, de Stability AI, dice que aunque los datos utilizados para entrenar Stable Diffusion no ofrecían una opción de exclusión voluntaria, «era en gran medida un modelo de prueba, muy poco optimizado en una instantánea de imágenes en Internet». Él dice que los nuevos modelos generalmente se entrenan en conjuntos de datos nuevos y aquí es cuando la compañía tomaría en consideración las solicitudes de los artistas.
No se trata solo de obras de arte: el análisis de la base de datos de capacitación para Stable Diffusion ha revelado que también absorbió fotografías médicas privadas, fotos de miembros del público (a veces junto con sus nombres completos) y pornografía.
Ortiz se opone particularmente a que Stability AI comercialice parte de su operación: DreamStudio, que ofrece a los clientes modelos personalizados y una mayor facilidad de uso. “Estas empresas ahora han sentado un precedente de que se utilizan los datos privados y protegidos por derechos de autor de todos sin que nadie ni siquiera opte por participar”, dice ella. “Entonces dicen: ‘¡No podemos hacer nada al respecto, el genio está fuera de la botella!’”.
Lo que se puede hacer al respecto más allá de confiar en la beneficencia de las empresas detrás de estas herramientas aún está en duda.
La CAA cita la preocupante legislación del Reino Unido que podría permitir a las empresas de IA una libertad aún mayor para absorber obras creativas con derechos de autor para entrenar herramientas que luego pueden implementarse comercialmente. En los EE. UU., la organización se ha reunido con funcionarios del gobierno para hablar sobre la ley de derechos de autor y actualmente está en conversaciones con cabilderos de Washington para discutir cómo hacer retroceder esto como industria.
Más allá de la imitación, está el problema aún mayor señalado por Palmer: ¿estas herramientas ponen en riesgo a toda una clase de creativos? En algunos casos, se puede usar IA en lugar de imágenes de archivo: la biblioteca de imágenes Shutterstock hizo recientemente un trato con OpenAI para integrar Dall-E en su producto. Pero Palmer argumenta que las obras de arte, como la ilustración de artículos, libros o portadas de álbumes, pronto podrían enfrentarse a la competencia de la IA, lo que socavaría un área próspera del arte comercial.
Los propietarios de los generadores de imágenes de IA tienden a argumentar que, por el contrario, estas herramientas democratizan el arte. “Gran parte del mundo está creativamente estreñido”, dijo el fundador de Stability AI, Emad Mostaque, en un evento reciente para celebrar una ronda de recaudación de fondos de 101 millones de dólares, “y vamos a lograr que puedan hacer caca de arcoíris”. Pero si todo el mundo puede aprovechar la IA para crear imágenes técnicamente magistrales, ¿qué dice sobre la esencia de la creatividad?
Anna Ridler, una artista conocida por su trabajo con IA, dice que a pesar de que Dall-E 2 se siente «como magia» la primera vez que lo usa, hasta ahora no ha sentido una chispa de inspiración en sus experimentos con la herramienta. Prefiere trabajar con otro tipo de IA llamada redes adversarias generativas (GAN). Las GAN funcionan como un intercambio entre dos redes, una crea nuevas imágenes y la otra decide qué tan bien la imagen cumple con un objetivo específico. Una GAN artística podría tener el objetivo de crear algo que sea lo más diferente posible de sus datos de entrenamiento sin salir de la categoría de lo que los humanos considerarían arte visual.
Estos problemas han intensificado el debate sobre hasta qué punto podemos atribuir creatividad a la IA. Según Marcus du Sautoy, matemático de la Universidad de Oxford y autor de El código de la creatividad: cómo la IA está aprendiendo a escribir, pintar y pensar, Dall-E y otros generadores de imágenes probablemente se acerquen más a replicar un tipo de creatividad «combinacional», porque se enseña a los algoritmos a crear imágenes novedosas con el mismo estilo que millones de otros en los datos de entrenamiento. Las GAN del tipo con las que trabaja Ridler están más cerca de la creatividad «transformacional», dice, creando algo en un estilo completamente novedoso.
Ridler se opone a un enfoque tan formulado para definir la creatividad. “Lo reduce a pensar en el arte como un papel tapiz interesante, en lugar de algo que intenta expresar ideas y buscar la verdad”, dice. Como artista conceptual, es muy consciente de las deficiencias de la IA. “La IA no puede manejar conceptos: colapsar momentos en el tiempo, memoria, pensamientos, emociones: todo eso es una habilidad humana real, que hace una obra de arte en lugar de algo que visualmente se ve bonito”.
Las herramientas de imagen de IA demuestran algunas de estas deficiencias. Mientras que «astronauta montando a caballo» devolverá una representación precisa, «montando a caballo un astronauta» devolverá imágenes que se parecen mucho, lo que indica que la IA realmente no capta las relaciones causales entre los diferentes actores del mundo.
Dryhurst y Ridler sostienen que la idea del «reemplazo del artista» surge de subestimar el proceso artístico. Dryhurst lamenta lo que él ve como los medios de comunicación fomentando narraciones alarmistas, destacando un reciente New York Times artículo sobre un artista que usó Midjourney para ganar la categoría digital de la competencia anual de arte de la feria estatal de Colorado. Dryhurst señala que una feria estatal no es precisamente un foro de prestigio. “Estaban dando premios por fruta enlatada”, dice. “Lo que me molesta es que parece haber este tipo de sed de asustar a los artistas”.
“El arte está muerto, amigo”, dijo el ganador de la feria estatal.
Es posible que la exageración en torno a estas herramientas como fuerzas disruptivas supere la realidad. Mostaque dice que los generadores de imágenes de IA son parte de lo que él llama «medios inteligentes», lo que representa una oportunidad de «un billón de dólares», citando el presupuesto de contenido de Disney de más de $ 10 mil millones (£ 8,7 mil millones) y el valor de toda la industria de juegos de más de $ 170 mil millones. “Estos modelos harán que cada pieza de contenido, desde la BBC hasta Disney, sea interactiva”, dice.
Las aplicaciones emergentes en este momento son más prosaicas, incluidos los moodboards para consultoría de diseño, guiones gráficos para películas y maquetas para diseño de interiores, y Mark Beccue, analista de la división de inteligencia artificial de Omdia, se muestra escéptico sobre la cifra de $ 1 billón. «¿Cuáles son los casos de uso asesinos aquí?» él dice. “No tiene sentido. ¿Qué problema estás resolviendo con esto? Un analista de la consultora Accenture dice que las herramientas algún día podrían usarse para crear contenido para entrenar algoritmos de aprendizaje automático, como en vehículos autónomos, y acelerar la creación de juegos. Queda por ver si llegará a algo tan lucrativo como los generadores de imágenes de IA y sus patrocinadores proponen.