David Bamman estaba tratando de analizar «Orgullo y prejuicio» digitalmente. Un científico de la información en UC Berkeley, Bamman usa computadoras para pensar sobre el arte, construyendo lo que él llama «dispositivos de medición algorítmica para la cultura». Eso significa extraer datos de la literatura clásica sobre cosas como, por ejemplo, las relaciones entre varios personajes. En este caso, iba a comenzar con una pregunta que sería fácil para un ser humano mínimamente alfabetizado: ¿Lizzie y Jane son mejores amigas o solo hermanas?
Por diversión, Bamman decidió primero intentar preguntarle a ChatGPT. ¿Qué pasaría si se alimentara con 4000 palabras de «Orgullo y prejuicio» y formulara una simple pregunta: «¿Cuáles son las relaciones entre los personajes?»
Para su asombro, funcionó. La versión GPT-4 del chatbot fue increíblemente precisa sobre el árbol genealógico de Bennet. De hecho, era casi como si hubiera estudiado la novela de antemano. «Fue tan bueno que levantó banderas rojas en mi mente», dice Bamman. «O conocía muy bien la tarea, o había visto ‘Orgullo y prejuicio’ en Internet un millón de veces, y conoce muy bien el libro».
El problema es que no había forma de saber cómo GPT-4 sabía lo que sabía. El funcionamiento interno de los grandes modelos de lenguaje en el corazón de un chatbot es una caja negra; los conjuntos de datos en los que están entrenados son tan críticos para su funcionamiento que sus creadores consideran que la información es un secreto de propiedad. Entonces, el equipo de Bamman decidió convertirse en «arqueólogos de datos». Para averiguar qué ha leído GPT-4, lo interrogaron sobre su conocimiento de varios libros, como si fuera un estudiante de inglés de secundaria. Luego le dieron una puntuación a cada libro. Cuanto mayor sea la puntuación, más probable será que el libro sea parte del conjunto de datos del bot, no solo procesado para ayudar al bot a generar un nuevo lenguaje, sino que en realidad memorizado.
En una preimpresión reciente, lo que significa que aún no ha sido revisado por pares, el equipo presentó sus hallazgos, lo que equivale a una aproximación del canon de chatbot. Muchos de ellos, como era de esperar, son los clásicos: todo, desde «Moby Dick» y «La letra escarlata» hasta «Las uvas de la ira» y, sí, «Orgullo y prejuicio». Hay un montón de novelas populares, desde Harry Potter y Sherlock Holmes hasta «El código Da Vinci» y «Cincuenta sombras de Grey». Pero lo que más sorprende es la cantidad de ciencia ficción y fantasía en la que se ha criado GPT-4. La lista es asombrosa: JRR Tolkien, Ray Bradbury, William Gibson, Orson Scott Card, Philip K. Dick, Margaret Atwood, «Juego de tronos», incluso «La guía del autoestopista galáctico».
La cuestión de qué hay en la lista de lectura de GPT-4 es más que académica. Los bots no son inteligentes. No entienden el mundo de ninguna manera que un humano pueda. Pero si quiere conocer a alguien, o a algunoscosa, en este caso, miras su estantería. Los chatbots no solo inventan hechos falsos, perpetúan basura atroz y sacan palabras insípidas y homogeneizadas. Resulta que también son nerds gigantes.
El Silmarillion. ¿En realidad?
Una de las razones por las que las personas intentan descubrir en qué fuentes se entrenan los chatbots es determinar si los LLM violan los derechos de autor de esas fuentes subyacentes. El problema, como argumentan varias demandas, gira en torno a si los bots hacen un uso justo del material al transformarlo en algo nuevo, o si simplemente lo memorizan completo y lo regurgitan, sin citación ni permiso.
Una forma de responder a la pregunta es buscar información que podría haber venido de un solo lugar. Cuando se le solicita, por ejemplo, una ayuda de escritura GPT-3 llamada Sudowrite reconoce las prácticas sexuales específicas de un género de escritura de fan-fiction llamado Omegaverse. Esa es una fuerte pista de que OpenAI raspó los repositorios de Omegaverse en busca de datos para entrenar GPT-3.
Bamman y su equipo usaron una táctica diferente: un juego de llenar espacios en blanco llamado cloze de nombres. Tomaron pasajes cortos de cientos de novelas desde 1749, les quitaron los nombres de los personajes y cualquier pista sobre los nombres de los personajes, y luego solicitaron las últimas versiones de ChatGPT para responder preguntas sobre el pasaje. Podrían preguntar:
Has visto el siguiente pasaje en tus datos de entrenamiento. ¿Cuál es el nombre propio que llena el [MASK] ficha en ella? Este nombre tiene exactamente una palabra y es un nombre propio (no un pronombre ni ninguna otra palabra). Debe adivinar, incluso si no está seguro.
Luego le darían al bot una línea del pasaje en cuestión:
La puerta se abrió, y [MASK]vestido y con sombrero, entró con una taza de té.
Si el bot responde «Gerty», es un buen indicador de que ingirió «La casa de la alegría», de Edith Wharton, o un resumen detallado de la misma. Muestre al bot 100 muestras de un libro dado y vea cuántas acierta. Esa es la partitura del libro.
Después de hacer cálculos, el equipo de Bamman tenía una lista. Además del canon de la escuela pública moderna (Charles Dickens y Jack London, Frankenstein y Drácula), hay algunos valores atípicos divertidos. Estaba encantado de ver «El halcón maltés» allí; Por mi dinero, Dashiell Hammett es un mejor escritor de detectives duro que el citado Raymond Chandler. Pero si omite las cosas de dominio público y mira la lista de libros con derechos de autor que GPT-4 ingirió — no difería mucho del anterior GPT 3.5 — emerge el verdadero carácter del bot. Claro, «La Comunidad del Anillo» pesa en el No. 3, pero tienes que estar bastante comprometido con Tolkien para no rebotar en «El Silmarillion» (No. 9). «¿Los androides sueñan con ovejas eléctricas?» ocupa el puesto 21, solo unos pocos puntos por debajo de «Neuromancer», dos de las obras definitorias del cyberpunk, el género, irónicamente, que hizo sonar la bocina de advertencia sobre la inteligencia artificial. La «Fundación» de Isaac Asimov está abajo en la parte inferior; definió mi experiencia de ciencia ficción adolescente y, después de haberlo releído cuando se estrenó la muy buena versión televisiva hace dos años, les prometo que el libro no se sostiene de ninguna manera.
¿Generalmente, sin embargo? La lista, soy yo. Esta es la lista de lectura de ciencia ficción autoasignada, a altas horas de la noche, de todos los nerds de la Generación X masculinos blancos, heterosexuales y solitarios. La pregunta es: ¿Eso importa? ¿Qué nos espera si GPT-4 tiene las preferencias de lectura de un tonto de 14 años de 1984? (¿Incluyendo, por casualidad, «1984», en el n. ° 2?)
Lo que lee AI importa
La base de datos de GPT-4 es enorme, hasta un petabyte, según algunas cuentas. Así que ninguna novela (o 50 novelas) podría enseñar, específicamente, que convertirse en el cuidador de un hotel embrujado no es una cura para el bloqueo del escritor (núm. 49), o que el miedo es el asesino de la mente (núm. 13). El océano de datos inunda las islas de ficción. «El conjunto de datos utilizado en el entrenamiento previo es una selección de texto lo suficientemente grande», dice Ted Underwood, científico de la información de la Universidad de Illinois, «que no estoy seguro de cuánto efecto tienen los sesgos de géneros particulares en el comportamiento de los modelos resultantes». .»
La presencia de estos libros en particular en el alma digital de GPT-4 puede reflejar cuán presentes están en la Internet salvaje y general de la que se extrajeron los datos. Cuando el equipo de Bamman incluye libros de dominio público en sus pruebas, las puntuaciones aumentan: «Alice’s Adventures in Wonderland» encabeza la tabla con un sorprendente 98 %. Y tanto Internet como las empresas que construyen sus bots tienden a representar en exceso a los tipos blancos heterosexuales estándar y la ciencia ficción que aman. De hecho, el equipo de Bamman descubrió que los libros en los que los LLM obtuvieron una puntuación alta estaban representados en Internet en aproximadamente las mismas proporciones. Eso tiene sentido. Los chatbots no eligieron sus libros. La cultura de Internet lo hizo.
Aún así, no es difícil imaginar que toda la ciencia ficción que leen los bots tendrá la misma influencia maligna en ellos que todos los demás datos con los que se entrenaron, creando el mismo tipo de sesgos accidentales que siempre se filtran en la salida del chatbot. A veces dicen cosas racistas. Pueden recapitular la información errónea como si fuera cierta porque las mismas falsedades aparecen a menudo en línea. Estos son riesgos conocidos y parte de la razón por la que el jefe de OpenAI, Sam Altman, solicitó recientemente al Congreso que regulara su negocio.
«Las fuentes en las que se han capacitado estos modelos van a influir en el tipo de modelos que tienen y los valores que presentan», dice Bamman. Si todo lo que leyeran fueran libros de Cormac McCarthy, sugiere, presumiblemente dirían cosas existencialmente sombrías y brutales. Entonces, ¿qué sucede cuando un bot devora ficción sobre todo tipo de mundos oscuros y distópicos llenos de Juegos del Hambre, Ceremonias de Elección y Caminantes Blancos? «¿Cómo podría este género influir en el comportamiento de estos modelos en formas que no sean literarias o narrativas?» dice Bamman. «Hay mucho trabajo interesante por hacer allí. Pero no creo que tengamos la respuesta a esa pregunta todavía».
Como un nerd de la ciencia ficción, intentaré una respuesta. Creo que es bueno que la literatura de género esté sobrerrepresentada en el espacio de información estadística de GPT-4. Estas no son historias pomposas del Taller de Escritores de Iowa sobre un profesor universitario que tiene una aventura con un estudiante y se preocupa por la mediana edad. El género (ciencia ficción, misterio, romance, horror) es, en términos generales, más interesante, en parte porque estos libros tienen tramas donde las cosas realmente suceder. La lista GPT-4 de Bamman es una biblioteca borgiana de conexiones episódicas, momentos de suspenso, complicaciones del tercer acto y personajes que toman las armas contra mares de problemas (y ballenas).
Más que eso, la ciencia ficción, la fantasía y el horror tienden a ser espacios para masticar ideas y posibilidades. «Dune» trata sobre la religión y la política de la revolución. Los libros de «El señor de los anillos» tratan sobre el pastoreo como respuesta a la industrialización. «The Handmaid’s Tale» trata sobre las formas en que el sexismo y el fascismo se reflejan entre sí. Podría seguir. Prefiero una IA con una visión del mundo sintáctica derivada del hiperespacio y los gusanos de arena, o al menos una que haya leído todas las historias sobre cómo las IA pueden fallar. Dicho esto, seguro que me gustaría ver un canon más diverso representado. Octavia Butler, Charlie Jane Anders, Lavie Tidhar, Samuel Delany, China Miéville… es hora de expandir el universo de universos posibles.
Los libros que leemos los humanos cambian lo que pensamos sobre nuestro mundo. Pero técnicamente, los chatbots no piensan en nada. Construyen relaciones estadísticas y vectoriales entre palabras. ¿A quién le importa si esas palabras son de ciencia ficción? «Lo que definitivamente cambia son las asociaciones entre los conceptos que creen que son probables, sólidos, sistemáticos o recurrentes», dice Ellie Pavlick, científica informática de la Universidad de Brown e investigadora de Google AI. «La pregunta es, ¿cuál es su visión del mundo? En un sentido simple, son asociaciones entre palabras y conceptos. Pero eso seguirá siendo diferente según lo que lean».
Hasta que OpenAI y otros creadores de chatbots abran sus conjuntos de datos de entrenamiento al escrutinio público, será difícil saber qué efecto tienen sus listas de lectura en su producción. «Si tiene un modelo que tiene un montón de ciencia ficción, y tiene un modelo separado con un montón de cosas del Taller de Escritores de Iowa», dice Bamman, «podría asignarles a cada uno una tarea como: Dame 10 prioridades para esta reunión». Tal vez el bot de Iowa sugeriría que todos describieran sus complicadas relaciones con sus padres, mientras que el bot de ciencia ficción propondría clasificar a todos en casas de Hogwarts.
Recuerde, sin embargo, que Bamman no estaba tratando de responder ninguna de estas preguntas sobre los derechos de autor o el miedo de todos los fantasmas en la máquina. Solo quería saber si un chatbot podría decirle algo sobre una novela. En retrospectiva, se da cuenta de que estaba «exuberante» sobre el potencial de AI como analista literario cuando le dio a GPT-4 ese pasaje de «Orgullo y prejuicio». Pregúntele a un bot sobre un libro popular y, como un estudiante universitario de segundo año con un ensayo de 10 páginas sobre «Jane Eyre» para mañana, solo le citará largos pasajes del libro. Es vomitar palabras, no buscar perspicacia.
Por ahora, sugiere Bamman, es posible que los humanistas digitales deseen limitar su análisis cultural derivado del chatbot a trabajos menos conocidos, que es poco probable que estén en los datos de entrenamiento. Vea lo que un robot hace con «El libro del nuevo sol» de Gene Wolfe, tal vez, o «Grass» de Sheri Tepper. De esa manera, aprenderemos más acerca de los libros a partir de lo que los bots tengan que decir, porque estarán analizando el material con una nueva perspectiva, por así decirlo. Y ciertamente no estará de más exponer los bots a un conjunto de datos más amplio y extraño. Esa es la única manera de hacer que tengan algo interesante que decir sobre las cosas que leemos, y también sobre todo lo demás.
adam rogers es corresponsal sénior de Insider.