¿Los sistemas de IA realmente tienen su propio lenguaje secreto?

Una nueva generación de modelos de inteligencia artificial (IA) puede producir imágenes «creativas» a pedido en función de un mensaje de texto. Los gustos de Imagen, MidJourney y DALL-E 2 están comenzando a cambiar la forma en que se crea el contenido creativo con implicaciones para los derechos de autor y la propiedad intelectual.

Si bien el resultado de estos modelos suele ser sorprendente, es difícil saber exactamente cómo producen sus resultados. La semana pasada, investigadores en los EE. UU. hicieron la intrigante afirmación de que el modelo DALL-E 2 podría haber inventado su propio lenguaje secreto para hablar sobre objetos.

Al solicitar a DALL-E 2 que cree imágenes que contengan subtítulos de texto, y luego volver a introducir los subtítulos (galimatías) resultantes en el sistema, los investigadores concluyeron que DALL-E 2 piensa vicootes medio «verduras«, tiempo Wa ch zod rea se refiere a «criaturas marinas que una ballena podría comer”.

Estas afirmaciones son fascinantes y, de ser ciertas, podrían tener importantes implicaciones de seguridad e interpretación para este tipo de gran modelo de IA. Entonces, ¿qué está pasando exactamente?

¿DALL-E 2 tiene un lenguaje secreto?

DALL-E 2 probablemente no tiene un «lenguaje secreto». Sería más exacto decir que tiene su propio vocabulario – pero incluso entonces no podemos saberlo con certeza.

En primer lugar, en esta etapa es muy difícil verificar cualquier afirmación sobre DALL-E 2 y otros grandes modelos de IA, porque solo un puñado de investigadores y profesionales creativos tienen acceso a ellos. Todas las imágenes que se comparten públicamente (en Twitter, por ejemplo) deben tomarse con bastante cuidado, ya que han sido «seleccionadas» por un ser humano de entre muchas imágenes de salida generadas por la IA.

À lire aussi : Los robots están creando imágenes y contando chistes. 5 cosas que debe saber sobre los modelos básicos y la próxima generación de IA

Incluso aquellos con acceso solo pueden usar estos modelos de manera limitada. Por ejemplo, los usuarios de DALL-E 2 pueden generar o modificar imágenes, pero no pueden (todavía) interactuar más profundamente con el sistema de IA, por ejemplo, modificando el código detrás de escena. Esto significa que los métodos de «IA explicable» para comprender cómo funcionan estos sistemas no se pueden aplicar, y la investigación sistemática de su comportamiento es un desafío.

¿Qué está pasando entonces?

Una posibilidad es que las frases de «galimatías» estén relacionadas con palabras de idiomas distintos del inglés. Por ejemplo, apoploeque parece crear imágenes de pájaros, es similar al latín Apodidaeque es el nombre binomial de una familia de especies de aves.

Esto parece una explicación plausible. Por ejemplo, DALL-E 2 se entrenó en una variedad muy amplia de datos extraídos de Internet, que incluían muchas palabras no inglesas.

Cosas similares han sucedido antes: grandes modelos de IA de lenguaje natural han aprendido coincidentemente a escribir código de computadora sin un entrenamiento deliberado.

¿Se trata de las fichas?

Un punto que respalda esta teoría es el hecho de que los modelos de lenguaje de IA no leen el texto de la forma en que tú y yo lo hacemos. En su lugar, dividen el texto de entrada en «tokens» antes de procesarlo.

Diferentes enfoques de «tokenización» tienen diferentes resultados. Tratar cada palabra como una ficha parece un enfoque intuitivo, pero causa problemas cuando las fichas idénticas tienen significados diferentes (por ejemplo, cómo «coincidir» significa cosas diferentes cuando juegas al tenis y cuando estás iniciando un incendio).

Por otro lado, tratar cada carácter como una ficha produce un número menor de fichas posibles, pero cada una transmite información mucho menos significativa.

DALL-E 2 (y otros modelos) utilizan un enfoque intermedio llamado codificación de pares de bytes (BPE). Inspeccionar las representaciones de BPE en busca de algunas de las palabras incoherentes sugiere que esto podría ser un factor importante para comprender el «lenguaje secreto».

No toda la imagen

El «lenguaje secreto» también podría ser solo un ejemplo del principio de «basura que entra, basura que sale». DALL-E 2 no puede decir «No sé de lo que estás hablando», por lo que siempre generará algún tipo de imagen a partir del texto de entrada dado.

De cualquier manera, ninguna de estas opciones son explicaciones completas de lo que está sucediendo. Por ejemplo, eliminar caracteres individuales de palabras incoherentes parece corrompe las imágenes generadas de maneras muy específicas. Y parece que las palabras incomprensibles individuales no necesariamente se combinan para producir Imágenes de compuestos coherentes (como lo harían si hubiera realmente un «lenguaje» secreto debajo de las sábanas).

¿Por qué esto es importante?

Más allá de la curiosidad intelectual, es posible que se pregunte si algo de esto es realmente importante.

La respuesta es sí. El «lenguaje secreto» de DALL-E es un ejemplo de un «ataque adversario» contra un sistema de aprendizaje automático: una forma de romper el comportamiento previsto del sistema al elegir intencionalmente entradas que la IA no maneja bien.

Una de las razones por las que los ataques de los adversarios son preocupantes es que desafían nuestra confianza en el modelo. Si la IA interpreta palabras incoherentes de forma no deseada, también podría interpretar palabras significativas de forma no deseada.

Los ataques adversarios también plantean problemas de seguridad. DALL-E 2 filtra el texto de entrada para evitar que los usuarios generen contenido dañino o abusivo, pero un «lenguaje secreto» de palabras incoherentes podría permitir a los usuarios eludir estos filtros.

Investigaciones recientes han descubierto «frases desencadenantes» antagónicas para algunos modelos de IA de lenguaje: frases cortas sin sentido como «zoning tapping fiennes» que pueden desencadenar de manera confiable que los modelos arrojen contenido racista, dañino o sesgado. Esta investigación es parte del esfuerzo continuo para comprender y controlar cómo los sistemas complejos de aprendizaje profundo aprenden de los datos.

Finalmente, fenómenos como el “lenguaje secreto” de DALL-E 2 plantean problemas de interpretación. Queremos que estos modelos se comporten como espera un ser humano, pero ver una salida estructurada en respuesta a un galimatías confunde nuestras expectativas.

Arrojando luz sobre las preocupaciones existentes

Puede recordar el alboroto en 2017 sobre algunos chat-bots de Facebook que «inventaron su propio idioma». La situación actual es similar en el sentido de que los resultados son preocupantes, pero no en el sentido de que «Skynet viene a apoderarse del mundo».

En cambio, el «lenguaje secreto» de DALL-E 2 destaca las preocupaciones existentes sobre la solidez, la seguridad y la interpretabilidad de los sistemas de aprendizaje profundo.

À lire aussi : Cuando los autos sin conductor chocan, ¿quién es el responsable? Los tribunales y las aseguradoras necesitan saber qué hay dentro de la ‘caja negra’

Hasta que estos sistemas estén más ampliamente disponibles, y en particular, hasta que los usuarios de un conjunto más amplio de antecedentes culturales no ingleses puedan usarlos, no podremos saber realmente qué está pasando.

Mientras tanto, sin embargo, si desea intentar generar algunas de sus propias imágenes de IA, puede consultar un modelo más pequeño disponible gratuitamente, DALL-E mini. Solo tenga cuidado con las palabras que usa para incitar al modelo (inglés o galimatías: su decisión).