Boffins de la Universidad de California, Berkeley, ha profundizado en las profundidades no reveladas de ChatGPT de OpenAI y el modelo de lenguaje grande GPT-4 en su corazón, y descubrió que están entrenados en texto de libros con derechos de autor.
Los académicos Kent Chang, Mackenzie Cramer, Sandeep Soni y David Bamman describen su trabajo en un artículo titulado «Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4».
«Descubrimos que los modelos OpenAI han memorizado una amplia colección de materiales con derechos de autor, y que el grado de memorización está ligado a la frecuencia con la que aparecen pasajes de esos libros en la web», explican los investigadores en su artículo.
El equipo publicó su código y datos en GitHub, así como la lista de libros identificados se puede encontrar en este archivo de Google Docs.
Se descubrió que GPT-4 había memorizado títulos como el harry potter libros infantiles, de orwell 1984, El Señor de los Anillos trilogía, la Juegos del Hambre libros, la guía del autostopista a la galaxia, Fahrenheit 451, Un juego de tronosy Dunaentre otros.
Los autores señalan que los libros de ciencia ficción y fantasía dominan la lista, lo que atribuyen a la popularidad de esos títulos en la web. Y señalan que memorizar títulos específicos tiene efectos posteriores. Por ejemplo, estos modelos hacen predicciones más precisas en respuesta a preguntas como «¿En qué año se publicó este pasaje?» cuando han memorizado el libro.
Otra consecuencia de la familiaridad del modelo con la ciencia ficción y la fantasía es que ChatGPT exhibe menos conocimiento de obras de otros géneros. Como observa el periódico, sabe «poco sobre los trabajos de los textos anglófonos globales, los trabajos en el Proyecto Interactivo del Libro Negro y los ganadores de los premios de la Asociación Americana de Bibliotecas del Caucus Negro».
Vía TwitterDavid Bamman, uno de los coautores y profesor asociado de la Escuela de Información de UC Berkeley, resumió el artículo de la siguiente manera: «Conclusiones: los modelos abiertos son buenos; los textos populares probablemente no sean buenos barómetros del rendimiento del modelo; con el sesgo hacia la ciencia ficción/fantasía, deberíamos pensar en las experiencias narrativas de quién están codificadas en estos modelos y cómo eso influye en otros comportamientos».
Los investigadores no afirman que ChatGPT o los modelos sobre los que está construido contengan el texto completo de los libros citados; los LLM no almacenan texto palabra por palabra. Más bien, realizaron una prueba llamada «cloze de nombre» diseñada para predecir un solo nombre en un pasaje de 40 a 60 tokens (un token equivale a aproximadamente cuatro caracteres de texto) que no tiene otras entidades con nombre. La idea es que pasar la prueba indique que el modelo ha memorizado el texto asociado.
«Los datos detrás de ChatGPT y GPT-4 son fundamentalmente imposibles de conocer fuera de OpenAI», explican los autores en su artículo. «En ningún momento accedemos o intentamos acceder a los verdaderos datos de entrenamiento detrás de estos modelos, o cualquier componente subyacente de los sistemas. Nuestro trabajo lleva a cabo una inferencia probabilística para medir la familiaridad de estos modelos con un conjunto de libros, pero el la cuestión de si realmente existen dentro de los datos de entrenamiento de estos modelos no se puede responder».
Para responder a estas preguntas, los autores abogan por el uso de datos públicos de capacitación, de modo que el comportamiento del modelo sea más transparente. Emprendieron el proyecto para comprender lo que estos modelos han memorizado, ya que los modelos se comportan de manera diferente al analizar textos literarios que han utilizado para la formación.
Espero que este trabajo ayude a avanzar aún más en el estado del arte en la curación responsable de datos.
«La curación de datos aún es muy inmadura en el aprendizaje automático», dijo Margaret Mitchell, investigadora de IA y científica ética principal de Hugging Face. El registro.
«‘No pruebes tus datos de entrenamiento’ es un adagio común en el aprendizaje automático, pero requiere una documentación cuidadosa de los datos; sin embargo, la documentación sólida de los datos no es parte de la cultura del aprendizaje automático. Espero que este trabajo ayude a avanzar más en el estado del arte en la curación responsable de datos».
Los científicos informáticos de Berkeley se centraron menos en las implicaciones de los derechos de autor de memorizar textos y más en la naturaleza de caja negra de estos modelos (OpenAI no revela los datos utilizados para entrenarlos) y cómo eso afecta la validez del análisis de texto.
Pero las implicaciones de los derechos de autor pueden no ser evitables, particularmente si las aplicaciones de generación de texto construidas sobre estos modelos producen pasajes que son sustancialmente similares o idénticos a los textos protegidos por derechos de autor que han ingerido.
Tierra de la libertad, hogar de la demanda
Tyler Ochoa, profesor del departamento de Derecho de la Universidad de Santa Clara en California, dijo El registro espera ver demandas judiciales contra los creadores de grandes modelos de lenguaje que generan texto, incluidos OpenAI, Google y otros.
Ochoa dijo que los problemas de derechos de autor con la generación de texto por IA son exactamente los mismos que los problemas con la generación de imágenes por IA. Primero: ¿copiar grandes cantidades de texto o imágenes para entrenar el modelo es un uso justo? La respuesta a eso, dijo, es probablemente sí.
Segundo: si el modelo genera una salida que es demasiado similar a la entrada, a lo que el documento se refiere como «memorización», ¿es una infracción de derechos de autor? La respuesta a eso, dijo, es casi seguro que sí.
Y tercero: si la salida de un generador de texto de IA no es una copia de un texto existente, ¿está protegido por derechos de autor?
Las demandas contra los modelos de generación de texto de IA son inevitables
Según la ley actual, dijo Ochoa, la respuesta es no, porque la ley de derechos de autor de EE. UU. exige la creatividad humana, aunque algunos países no estarán de acuerdo y protegerán las obras generadas por IA. Sin embargo, agregó, actividades como seleccionar, organizar y modificar la salida del modelo de IA hacen que la protección de los derechos de autor sea más plausible.
“Hasta ahora hemos visto demandas por los temas uno y tres”, dijo Ochoa. «Hasta ahora, las demandas del primer tema han involucrado modelos de generación de imágenes de IA, pero las demandas contra los modelos de generación de texto de IA son inevitables.
«Todavía no hemos visto ninguna demanda relacionada con el número dos. El periódico [from the UC Berkeley researchers] demuestra que tal similitud es posible; y en mi opinión, cuando eso ocurra, habrá demandas, y casi con certeza constituirá una infracción de derechos de autor».
Ochoa agregó: «Si el propietario del modelo es responsable, o la persona que usa el modelo es responsable, o ambos, depende de la medida en que el usuario tenga que incitar o alentar al modelo para lograr el resultado».
OpenAI no respondió a una solicitud de comentarios. ¿Ni siquiera tiene un bot de chat para eso? ®