Robot FRIDA impulsado por IA colabora con humanos para crear arte

El Instituto de Robótica de la Universidad Carnegie Mellon tiene un nuevo artista en residencia.

FRIDA, un brazo robótico con un pincel pegado con cinta adhesiva, utiliza inteligencia artificial para colaborar con humanos en obras de arte. Pídele a FRIDA que pinte un cuadro y se pone a trabajar poniendo el pincel sobre el lienzo.

«Hay una pintura de una rana bailarina que creo que quedó muy bien», dijo Peter Schaldenbrand, un Ph.D. de la Escuela de Ciencias de la Computación. estudiante en el Instituto de Robótica trabajando con FRIDA y explorando la IA y la creatividad. «Es realmente tonto y divertido, y creo que la sorpresa de lo que FRIDA generó en base a mi aporte fue muy divertida de ver».

FRIDA, que lleva el nombre de Frida Kahlo, significa Framework and Robotics Initiative for Developing Arts. El proyecto está dirigido por Schaldenbrand con los miembros de la facultad de RI, Jean Oh y Jim McCann, y ha atraído a estudiantes e investigadores de CMU.

Los usuarios pueden dirigir a FRIDA ingresando una descripción de texto, enviando otras obras de arte para inspirar su estilo o cargando una fotografía y pidiéndole que pinte una representación de ella. El equipo también está experimentando con otras entradas, incluido el audio. Tocaron «Dancing Queen» de ABBA y le pidieron a FRIDA que la pintara.

«FRIDA es un sistema de pintura robótico, pero FRIDA no es un artista», dijo Schaldenbrand. «FRIDA no está generando las ideas para comunicar. FRIDA es un sistema con el que un artista puede colaborar. El artista puede especificar objetivos de alto nivel para FRIDA y luego FRIDA puede ejecutarlos».

El robot utiliza modelos de IA similares a las herramientas de potencia como ChatGPT y DALL-E 2 de OpenAI, que generan texto o una imagen, respectivamente, en respuesta a un aviso. FRIDA simula cómo pintaría una imagen con pinceladas y utiliza el aprendizaje automático para evaluar su progreso a medida que funciona.

Los productos finales de FRIDA son impresionistas y caprichosos. Las pinceladas son atrevidas. Carecen de la precisión buscada tan a menudo en los esfuerzos robóticos. Si FRIDA comete un error, se burla de él e incorpora la mancha errante de pintura en el resultado final.

«FRIDA es un proyecto que explora la intersección de la creatividad humana y robótica», dijo McCann. «FRIDA está utilizando el tipo de modelos de IA que se han desarrollado para hacer cosas como subtitular imágenes y comprender el contenido de la escena y aplicarlo a este problema generativo artístico».

FRIDA aprovecha la IA y el aprendizaje automático varias veces durante su proceso artístico. Primero, pasa una hora o más aprendiendo a usar su pincel. Luego, utiliza grandes modelos de visión-lenguaje entrenados en conjuntos de datos masivos que combinan texto e imágenes extraídas de Internet, como el entrenamiento previo de imágenes de lenguaje contrastivo (CLIP) de OpenAI, para comprender la entrada. Los sistemas de IA utilizan estos modelos para generar nuevo texto o imágenes en función de un aviso.

Otras herramientas de generación de imágenes, como DALL-E 2 de OpenAI, utilizan grandes modelos de visión y lenguaje para producir imágenes digitales. FRIDA va un paso más allá y utiliza su sistema robótico incorporado para producir pinturas físicas. Uno de los mayores desafíos técnicos en la producción de una imagen física es reducir la brecha entre la simulación y la realidad, la diferencia entre lo que FRIDA compone en simulación y lo que pinta en el lienzo. FRIDA utiliza una idea conocida como real2sim2real. Las pinceladas reales del robot se utilizan para entrenar al simulador para que refleje e imite las capacidades físicas del robot y los materiales de pintura.

El equipo de FRIDA también busca abordar algunas de las limitaciones de los grandes modelos actuales de visión y lenguaje refinando continuamente los que utilizan. El equipo alimentó a los modelos con los titulares de los artículos de noticias para darles una idea de lo que estaba sucediendo en el mundo y los entrenó más en imágenes y texto más representativos de diversas culturas para evitar un sesgo estadounidense u occidental. Este esfuerzo de colaboración multicultural está dirigido por Zhixuan Liu y Beverley-Claire Okogwu, estudiantes de maestría de RI de primer año, y Youeun Shin y Youngsik Yun, estudiantes de maestría visitantes de la Universidad Dongguk en Corea. Sus esfuerzos incluyen contribuciones de datos de capacitación de China, Japón, Corea, México, Nigeria, Noruega, Vietnam y otros países.

Una vez que el usuario humano de FRIDA ha especificado un concepto de alto nivel de la pintura que desea crear, el robot utiliza el aprendizaje automático para crear su simulación y desarrollar un plan para hacer una pintura que logre los objetivos del usuario. FRIDA muestra una paleta de colores en la pantalla de una computadora para que un humano la mezcle y se la proporcione al robot. Actualmente se está desarrollando la mezcla automática de pintura, dirigida por Jiaying Wei, estudiante de maestría en la Escuela de Arquitectura, con Eunsu Kang, docente del Departamento de Aprendizaje Automático.

Armada con un pincel y pintura, FRIDA dará sus primeros trazos. De vez en cuando, el robot usa una cámara superior para capturar una imagen de la pintura. La imagen ayuda a FRIDA a evaluar su progreso y refinar su plan, si es necesario. Todo el proceso lleva horas.

«La gente se pregunta si FRIDA quitará los trabajos de los artistas, pero el objetivo principal del proyecto FRIDA es todo lo contrario. Queremos promover realmente la creatividad humana a través de FRIDA», dijo Oh. «Por ejemplo, personalmente quería ser artista. Ahora, puedo colaborar con FRIDA para expresar mis ideas en la pintura».

Más información sobre FRIDA está disponible en su sitio web. El equipo presentará su última investigación del proyecto, «FRIDA: A Collaborative Robot Painter With a Differentiable, Real2Sim2Real Planning Environment» en la Conferencia Internacional IEEE 2023 sobre Robótica y Automatización este mayo en Londres. FRIDA reside en el laboratorio Bot Intelligence Group (BIG) de RI en el vecindario Squirrel Hill de Pittsburgh.