Saltar al contenido

Las prácticas de datos de OpenAI causan problemas en Europa

20 de abril de 2023

(TNS) — OpenAI tiene poco más de una semana para cumplir con las leyes europeas de protección de datos luego de una prohibición temporal en Italia y una serie de investigaciones en otros países de la UE. Si falla, podría enfrentar fuertes multas, verse obligado a eliminar datos o incluso ser prohibido.

Pero los expertos le han dicho a MIT Technology Review que será casi imposible que OpenAI cumpla con las reglas. Eso se debe a la forma en que se recopilaron los datos utilizados para entrenar sus modelos de IA: aspirando contenido de Internet.

En el desarrollo de IA, el paradigma dominante es que cuantos más datos de entrenamiento, mejor. El modelo GPT-2 de OpenAI tenía un conjunto de datos que constaba de 40 gigabytes de texto. GPT-3, en el que se basa ChatGPT, se entrenó con 570 GB de datos. OpenAI no ha compartido qué tan grande es el conjunto de datos para su último modelo, GPT-4.


Pero ese hambre por modelos más grandes ahora está volviendo a morder a la compañía. En las últimas semanas, varias autoridades occidentales de protección de datos han iniciado investigaciones sobre cómo OpenAI recopila y procesa los datos que alimentan a ChatGPT. Creen que ha recopilado datos personales de personas, como nombres o direcciones de correo electrónico, y los ha utilizado sin su consentimiento.

La autoridad italiana ha bloqueado el uso de ChatGPT como medida de precaución, y los reguladores de datos franceses, alemanes, irlandeses y canadienses también están investigando cómo el sistema OpenAI recopila y utiliza datos. La Junta Europea de Protección de Datos, la organización paraguas de las autoridades de protección de datos, también está creando un grupo de trabajo en toda la UE para coordinar las investigaciones y la aplicación de ChatGPT.

Italia ha dado a OpenAI hasta el 30 de abril para cumplir con la ley. Esto significaría que OpenAI tendría que pedir el consentimiento de las personas para que se extraigan sus datos, o demostrar que tiene un «interés legítimo» en recopilarlos. OpenAI también tendrá que explicar a las personas cómo ChatGPT usa sus datos y darles el poder de corregir cualquier error sobre ellos que escupe el chatbot, borrar sus datos si lo desean y oponerse a permitir que el programa de computadora los use.

Recomendado:  Hacia el diseño de la arquitectura basada en los primeros principios: el blog de investigación de inteligencia artificial de Berkeley

Si OpenAI no puede convencer a las autoridades de que sus prácticas de uso de datos son legales, podría prohibirse en países específicos o incluso en toda la Unión Europea. También podría enfrentar fuertes multas e incluso podría verse obligado a eliminar modelos y los datos utilizados para entrenarlos, dice Alexis Leautier, un experto en IA de la agencia francesa de protección de datos CNIL.

Las violaciones de OpenAI son tan flagrantes que es probable que este caso termine en el Tribunal de Justicia de la Unión Europea, el tribunal supremo de la UE, dice Lilian Edwards, profesora de derecho de Internet en la Universidad de Newcastle. Podrían pasar años antes de que veamos una respuesta a las preguntas planteadas por el regulador de datos italiano.

Juego de apuestas altas

Lo que está en juego no podría ser más alto para OpenAI. El Reglamento General de Protección de Datos de la UE es el régimen de protección de datos más estricto del mundo y se ha copiado ampliamente en todo el mundo. Los reguladores de todo el mundo, desde Brasil hasta California, prestarán mucha atención a lo que suceda a continuación, y el resultado podría cambiar fundamentalmente la forma en que las empresas de inteligencia artificial recopilan datos.

Además de ser más transparente sobre sus prácticas de datos, OpenAI deberá demostrar que está utilizando una de las dos posibles formas legales de recopilar datos de entrenamiento para sus algoritmos: consentimiento o «interés legítimo».

Parece poco probable que OpenAI pueda argumentar que obtuvo el consentimiento de las personas cuando extrajo sus datos. Eso lo deja con el argumento de que tenía un “interés legítimo” en hacerlo. Es probable que esto requiera que la empresa presente argumentos convincentes a los reguladores sobre cuán esencial es realmente ChatGPT para justificar la recopilación de datos sin consentimiento, dice Edwards.

Recomendado:  El organismo de inteligencia artificial de EE.UU. pide la creación de una alianza tecnológica estratégica entre India y EE.UU.

OpenAI nos dijo que cree que cumple con las leyes de privacidad, y en una publicación de blog dijo que trabaja para eliminar la información personal de los datos de capacitación cuando se solicita «cuando sea factible».

La compañía dice que sus modelos están capacitados en contenido disponible públicamente, contenido con licencia y contenido generado por revisores humanos. Pero para el RGPD, ese es un listón demasiado bajo.

“Estados Unidos tiene la doctrina de que cuando las cosas son públicas, ya no son privadas, lo cual no es en absoluto cómo funciona la ley europea”, dice Edwards. El RGPD otorga a las personas derechos como «sujetos de datos», como el derecho a ser informados sobre cómo se recopilan y utilizan sus datos y a que se eliminen de los sistemas, incluso si eran públicos en primer lugar.

Encontrar una aguja en un pajar

OpenAI tiene otro problema. La autoridad italiana dice que OpenAI no está siendo transparente sobre cómo recopila los datos de los usuarios durante la fase posterior al entrenamiento, como en los registros de chat de sus interacciones con ChatGPT.

“Lo que realmente preocupa es cómo usa los datos que le das en el chat”, dice Leautier. Las personas tienden a compartir información íntima y privada con el chatbot, contándole cosas como su estado mental, su salud o sus opiniones personales. Leautier dice que es problemático si existe el riesgo de que ChatGPT regurgite estos datos confidenciales a otros. Y según la ley europea, los usuarios deben poder eliminar sus datos de registro de chat, agrega.

A OpenAI le resultará casi imposible identificar los datos de las personas y eliminarlos de sus modelos, dice Margaret Mitchell, investigadora de IA y científica en jefe de ética en la startup Hugging Face, quien anteriormente fue codirectora de ética de IA de Google.

La empresa podría haberse ahorrado un gran dolor de cabeza si hubiera creado un sólido registro de datos desde el principio, dice. En cambio, es común en la industria de la IA crear conjuntos de datos para modelos de IA raspando la web indiscriminadamente y luego subcontratando el trabajo de eliminar duplicados o puntos de datos irrelevantes, filtrar cosas no deseadas y corregir errores tipográficos. Estos métodos, y el gran tamaño del conjunto de datos, significan que las empresas de tecnología tienden a tener una comprensión muy limitada de lo que se ha utilizado para entrenar sus modelos.

Recomendado:  El sesgo de la IA es frecuente pero prevenible: aquí se explica cómo erradicarlo

Las empresas tecnológicas no documentan cómo recopilan o anotan los datos de entrenamiento de IA y ni siquiera suelen saber qué hay en el conjunto de datos, dice Nithya Sambasivan, excientífica investigadora de Google y emprendedora que ha estudiado las prácticas de datos de IA.

Encontrar datos italianos en el vasto y difícil conjunto de datos de entrenamiento de ChatGPT será como encontrar una aguja en un pajar. E incluso si OpenAI logró eliminar los datos de los usuarios, no está claro si ese paso sería permanente. Los estudios han demostrado que los conjuntos de datos permanecen en Internet mucho después de que se hayan eliminado, porque las copias del original tienden a permanecer en línea.

“El estado del arte en torno a la recopilación de datos es muy, muy inmaduro”, dice Mitchell. Esto se debe a que se ha invertido mucho trabajo en el desarrollo de técnicas de vanguardia para modelos de IA, mientras que los métodos de recopilación de datos apenas han cambiado en la última década.

En la comunidad de IA, se enfatiza demasiado el trabajo en modelos de IA a expensas de todo lo demás, dice Mitchell: «Culturalmente, existe este problema en el aprendizaje automático donde trabajar en datos se considera un trabajo tonto y trabajar en modelos se considera un trabajo real».

Sambasivan está de acuerdo: «En general, el trabajo de datos necesita mucha más legitimidad».

© Copyright 2023 Technology Review, Inc. Distribuido por TRIBUNE CONTENT AGENCY, LLC.