Sarah Silverman y los novelistas demandan al creador de ChatGPT, OpenAI, por ingerir sus libros

Para recibir alertas gratuitas de noticias de última hora en tiempo real enviadas directamente a su bandeja de entrada, suscríbase a nuestros correos electrónicos de noticias de última hora

Regístrese para recibir nuestros correos electrónicos de noticias de última hora gratuitos

Pregúntele a ChatGPT sobre las memorias de la comediante Sarah Silverman «The Bedwetter» y el chatbot de inteligencia artificial puede generar una sinopsis detallada de cada parte del libro.

¿Significa eso que efectivamente “leyó” y memorizó una copia pirateada? ¿O recopiló tantas reseñas de clientes y charlas en línea sobre el éxito de ventas o el musical que inspiró que pasa por un experto?

Los tribunales de EE. UU. ahora pueden ayudar a resolver eso después de que Silverman demandó al fabricante de ChatGPT, OpenAI, por infracción de derechos de autor esta semana, uniéndose a un número creciente de escritores que dicen que, sin saberlo, sentaron las bases para el auge de la IA en Silicon Valley.

La demanda de Silverman dice que ella nunca le dio permiso a OpenAI para ingerir la versión digital de su libro de 2010 para entrenar sus modelos de IA, y probablemente fue robado de una «biblioteca en la sombra» de obras pirateadas. Dice que las memorias fueron copiadas «sin consentimiento, sin crédito y sin compensación».

Es uno de un número creciente de casos que podrían romper el secreto de OpenAI y sus rivales sobre los valiosos datos utilizados para entrenar productos de «IA generativa» cada vez más utilizados que crean nuevos textos, imágenes y música. Y plantea interrogantes sobre la base ética y legal de las herramientas que, según los proyectos del McKinsey Global Institute, agregarán el equivalente de $ 2,6 billones a $ 4,4 billones a la economía global.

“Este es un secreto abierto y sucio de toda la industria del aprendizaje automático”, dijo Matthew Butterick, uno de los abogados que representan a Silverman y otros autores en la búsqueda de un caso de demanda colectiva. “Les encantan los datos de los libros y los obtienen de estos sitios ilícitos. Estamos haciendo sonar el silbato en toda esa práctica”.

OpenAI no respondió a las solicitudes de comentarios sobre las acusaciones. Otra demanda de Silverman hace afirmaciones similares sobre un modelo de inteligencia artificial construido por Meta, la empresa matriz de Facebook e Instagram, que se negó a comentar.

Puede ser un caso difícil de ganar para los escritores, especialmente después del éxito de Google en vencer los desafíos legales a su biblioteca de libros en línea. En 2016, la Corte Suprema de EE. UU. dejó en pie los fallos de los tribunales inferiores que rechazaron la afirmación de los autores de que la digitalización de millones de libros por parte de Google y la exhibición de pequeñas porciones de ellos al público equivale a una «infracción de derechos de autor en una escala épica».

“Creo que lo que OpenAI ha hecho con los libros se parece mucho a lo que se le permitió hacer a Google con su proyecto Google Books y, por lo tanto, será legal”, dijo Deven Desai, profesor asociado de derecho y ética en el Instituto de Tecnología de Georgia.

Si bien solo unos pocos han demandado, incluidos Silverman y los novelistas más vendidos Mona Awad y Paul Tremblay, las preocupaciones sobre las prácticas de construcción de IA de la industria tecnológica han ganado fuerza en las comunidades literarias y artísticas.

Otros autores prominentes, entre ellos Nora Roberts, Margaret Atwood, Louise Erdrich y Jodi Picoult, firmaron una carta a fines del mes pasado a los directores ejecutivos de OpenAI, Google, Microsoft, Meta y otros desarrolladores de IA acusándolos de prácticas de explotación en la construcción de chatbots que «imitan y regurgitar” su lenguaje, estilo e ideas.

“Millones de libros, artículos, ensayos y poesía con derechos de autor proporcionan el ‘alimento’ para los sistemas de IA, comidas interminables por las que no ha habido factura”, decía la carta abierta organizada por el Sindicato de Autores y firmada por más de 4.000 escritores. “Estás gastando miles de millones de dólares para desarrollar tecnología de IA. Es justo que nos compense por usar nuestros escritos, sin los cuales la IA sería banal y extremadamente limitada”.

Los sistemas de inteligencia artificial detrás de productos populares como ChatGPT, Bard de Google y el chatbot Bing de Microsoft se conocen como grandes modelos de lenguaje que han «aprendido» analizando y recogiendo patrones de una gran cantidad de texto ingerido. Han asombrado al público con su gran dominio del lenguaje humano, aunque también son conocidos por su tendencia a decir falsedades.

Si bien los modelos también recibieron capacitación sobre artículos de noticias y redes sociales, los libros son particularmente valiosos, como reconoció OpenAI en un artículo de 2018 citado en la demanda de Silverman.

La primera versión del modelo de lenguaje grande de OpenAI, conocido como GPT-1, se basó en un conjunto de datos compilados por investigadores universitarios llamado Toronto Book Corpus que incluía miles de libros inéditos, algunos de los géneros de aventura, fantasía y romance.

“De manera crucial, contiene largos tramos de texto contiguo, lo que permite que el modelo generativo aprenda a condicionar información de largo alcance”, dijeron los investigadores de OpenAI en ese momento. Otras empresas tecnológicas como Google y Amazon también se basaron en los mismos datos, que ya no están disponibles en su forma original.

Pero desde entonces, OpenAI y otros importantes desarrolladores de IA se han vuelto más reservados sobre sus fuentes de datos, incluso cuando han ingerido cantidades aún mayores de trabajos escritos. Butterick dijo que la evidencia circunstancial apunta al uso de las llamadas bibliotecas ocultas de contenido pirateado que contenían las obras de Silverman y otros demandantes.

“Es importante para sus modelos porque los libros son la mejor fuente de escritura coherente, bien editada y de formato largo”, dijo. «Básicamente, no puedes tener un modelo de lenguaje de alta calidad a menos que tengas libros en tus datos de entrenamiento».

Pueden pasar semanas o meses antes de que OpenAI responda formalmente. Pero una vez que avance el caso, los ejecutivos de tecnología podrían tener que testificar, bajo juramento, sobre las fuentes de los libros que copiaron.

“Hasta donde sabemos, la otra parte no lo ha negado”, dijo Joseph Saveri, otro de los abogados de Silverman. “No tienen una explicación alternativa para esto”.

Saveri dijo que los autores no necesariamente están pidiendo a las empresas de tecnología que se deshagan de sus algoritmos y datos de entrenamiento y comiencen de nuevo, aunque existe un precedente para destruir datos de IA mal habidos. Pero se necesita alguna forma de compensar a los escritores, dijo.