CLos sistemas de inteligencia artificial de última generación pueden ayudarlo a escapar de una multa de estacionamiento, escribir un ensayo académico o engañarlo para que crea que el Papa Francisco es un amante de la moda. Pero las bibliotecas virtuales detrás de esta impresionante tecnología son enormes, y existe la preocupación de que estén operando en violación de las leyes de derechos de autor y datos personales.
Es probable que los enormes conjuntos de datos utilizados para entrenar la última generación de estos sistemas de IA, como los que están detrás de ChatGPT y Stable Diffusion, contengan miles de millones de imágenes extraídas de Internet, millones de libros electrónicos pirateados, las actas completas de los 16 años del parlamento europeo y toda la Wikipedia en inglés.
Pero el voraz apetito de la industria por los grandes datos está comenzando a causar problemas, ya que los reguladores y los tribunales de todo el mundo toman medidas enérgicas contra los investigadores que aspiran contenido sin consentimiento ni notificación. En respuesta, los laboratorios de IA están luchando para mantener en secreto sus conjuntos de datos, o incluso desafiando a los reguladores a impulsar el problema.
En Italia, se prohibió el funcionamiento de ChatGPT después de que el regulador de protección de datos del país dijera que no había base legal para justificar la recopilación y el «almacenamiento masivo» de datos personales para entrenar la IA de GPT. El martes, el comisionado de privacidad de Canadá hizo lo mismo con una investigación sobre la empresa en respuesta a una denuncia que alegaba “la recopilación, el uso y la divulgación de información personal sin consentimiento”.
El organismo de control de datos de Gran Bretaña expresó sus propias preocupaciones. “La ley de protección de datos aún se aplica cuando la información personal que está procesando proviene de fuentes de acceso público”, dijo Stephen Almond, director de tecnología e innovación de la Oficina del Comisionado de Información.
Michael Wooldridge, profesor de ciencias de la computación en la Universidad de Oxford, dice que los «modelos de lenguaje grande» (LLM), como los que sustentan ChatGPT de OpenAI y Bard de Google, absorben cantidades colosales de datos.
“Esto incluye toda la red mundial, todo. Se sigue cada enlace en cada página, y se sigue cada enlace en esas páginas… En esa cantidad inimaginable de datos, probablemente haya muchos datos sobre usted y sobre mí”, dice, y agrega que los comentarios sobre una persona y su trabajo también podrían ser recopilados por un LLM. “Y no está almacenado en una gran base de datos en alguna parte, no podemos mirar para ver exactamente qué información tiene sobre mí. Todo está enterrado en enormes redes neuronales opacas”.
Wooldridge dice que los derechos de autor son una «tormenta que se avecina» para las empresas de inteligencia artificial. Es probable que los LLM hayan accedido a material protegido por derechos de autor, como artículos de noticias. De hecho, el chatbot asistido por GPT-4 adjunto al motor de búsqueda Bing de Microsoft cita sitios de noticias en sus respuestas. “No di permiso explícito para que mis trabajos se usaran como datos de entrenamiento, pero casi seguro que lo fueron, y ahora contribuyen a lo que saben estos modelos”, dice.
“Muchos artistas están muy preocupados de que sus medios de vida estén en riesgo por la IA generativa. Espere ver batallas legales”, agrega.
Ya han surgido demandas, con la compañía de fotografía de stock Getty Images demandando a la startup británica Stability AI, la compañía detrás del generador de imágenes de IA Stable Diffusion, después de afirmar que la firma de generación de imágenes violó los derechos de autor al usar millones de Getty Photos sin licencia para entrenar su sistema. . En los EE. UU., un grupo de artistas está demandando a Midjourney y Stability AI en una demanda que afirma que las empresas «violaron los derechos de millones de artistas» al desarrollar sus productos utilizando el trabajo de los artistas sin su permiso.
id=»acc06b82-4b83-4a18-850e-f9c1ac700e8b» data-spacefinder-role=»inline» data-spacefinder-type=»model.dotcomrendering.pageElements.ImageBlockElement» class=»dcr-173mewl»>
Incómodamente para Stability, Stable Diffusion ocasionalmente escupe imágenes con una marca de agua de Getty Images intacta, ejemplos de los cuales la agencia de fotografía incluyó en su demanda. En enero, los investigadores de Google incluso lograron que el sistema Stable Diffusion recreara casi a la perfección una de las imágenes sin licencia en las que se había entrenado, un retrato de la evangelista estadounidense Anne Graham Lotz.
Las demandas por derechos de autor y las acciones de los reguladores contra OpenAI se ven obstaculizadas por el secreto absoluto de la empresa sobre sus datos de capacitación. En respuesta a la prohibición italiana, Sam Altman, director ejecutivo de OpenAI, que desarrolló ChatGPT, dijo: «Creemos que estamos siguiendo todas las leyes de privacidad». Pero la compañía se ha negado a compartir información sobre qué datos se usaron para entrenar GPT-4, la última versión de la tecnología subyacente que impulsa ChatGPT.
Incluso en su «informe técnico» que describe la IA, la compañía dice brevemente que fue entrenada «utilizando datos disponibles públicamente (como datos de Internet) y datos con licencia de proveedores externos». Se oculta más información, dice, debido «tanto al panorama competitivo como a las implicaciones de seguridad de los modelos a gran escala como GPT-4».
Otros tienen el punto de vista opuesto. EleutherAI se describe a sí mismo como un «laboratorio de investigación de IA sin fines de lucro» y se fundó en 2020 con el objetivo de recrear GPT-3 y lanzarlo al público. Con ese fin, el grupo armó Pile, una colección de conjuntos de datos de 825 gigabytes recopilados de todos los rincones de Internet. Incluye 100 GB de libros electrónicos tomados del sitio pirata Bibliotik, otros 100 GB de código de computadora extraído de Github y una colección de 228 GB de sitios web recopilados de Internet desde 2008; todo, reconoce el grupo, sin el consentimiento de los autores involucrados.
data-spacefinder-role=»inline» data-spacefinder-type=»model.dotcomrendering.pageElements.NewsletterSignupBlockElement» class=» dcr-173mewl»>saltar la promoción del boletín anterior
después de la promoción del boletín
Eleuther argumenta que los conjuntos de datos en la Pila ya se han compartido tan ampliamente que su compilación «no constituye un daño significativamente mayor». Pero el grupo no asume el riesgo legal de alojar directamente los datos, sino que recurre a un grupo de «entusiastas de los datos» anónimos llamado Eye, cuya política de eliminación de derechos de autor es un video de un coro de mujeres vestidas que fingen masturbarse sus penes imaginarios mientras cantando.
Parte de la información que producen los chatbots también ha sido falsa. ChatGPT acusó falsamente a un profesor de derecho estadounidense, Jonathan Turley, de la Universidad George Washington, de acosar sexualmente a uno de sus estudiantes, citando un artículo de noticias que no existía. El regulador italiano también se refirió al hecho de que las respuestas de ChatGPT no «siempre coinciden con las circunstancias de hecho» y «se procesan datos personales inexactos».
Un informe anual sobre el progreso de la IA mostró que los actores comerciales dominaban la industria, por encima de las instituciones académicas y los gobiernos.
Según el informe del Índice de IA de 2023, compilado por la Universidad de Stanford, con sede en California, el año pasado hubo 32 modelos importantes de aprendizaje automático producidos por la industria, en comparación con tres producidos por la academia. Hasta 2014, la mayoría de los modelos importantes procedían del ámbito académico, pero desde entonces ha aumentado el coste de desarrollar modelos de IA, incluido el personal y la potencia informática.
“En general, los modelos multimodales y de idiomas grandes son cada vez más grandes y más caros”, dice el informe. Una iteración temprana del LLM detrás de ChatGPT, conocida como GPT-2, tenía 1500 millones de parámetros, análogos a las neuronas en un cerebro humano, y su entrenamiento costó aproximadamente $50 000. En comparación, PaLM de Google tenía 540 mil millones de parámetros y un costo estimado de $ 8 millones.
Esto ha generado preocupaciones de que las entidades corporativas adopten un enfoque menos medido del riesgo que los proyectos académicos o respaldados por el gobierno. La semana pasada, una carta cuyos signatarios incluían a Elon Musk y el cofundador de Apple, Steve Wozniak, pedía una pausa inmediata en la creación de «experimentos gigantes de IA» durante al menos seis meses. La carta decía que había preocupaciones de que las empresas de tecnología estaban creando «mentes digitales cada vez más poderosas» que nadie podía «entender, predecir o controlar de manera confiable».
El Dr. Andrew Rogoyski, del Instituto para la IA centrada en las personas de la Universidad de Surrey, en Inglaterra, dijo: «Gran IA significa que estas IA están siendo creadas únicamente por grandes corporaciones con fines de lucro, lo que desafortunadamente significa que nuestros intereses como seres humanos no están necesariamente bien representados.
Añadió: «Tenemos que centrar nuestros esfuerzos en hacer que la IA sea más pequeña, más eficiente, que requiera menos datos, menos electricidad, para que podamos democratizar el acceso a la IA».