¿Puede la IA generativa recopilar nuestros datos de Internet?

Por Sreenidhi Srinivasan y Pallavi Sondhi

Chat GPT puede escribir sonetos, codificar sitios web e incluso aprobar el examen de la barra. Aprendió a hacer esto entrenando con grandes cantidades de datos. Muchos de estos datos son información personal sobre individuos extraídos de Internet, a menudo sin que ellos lo sepan.

Al darse cuenta de esto, el mes pasado, el regulador de protección de datos de Italia detuvo las operaciones de Chat GPT por una violación de sus normas de datos.

India aún está finalizando su ley de protección de datos. En el contexto de la acción de Italia, discutimos cómo le iría a Chat GPT según la ley propuesta de India, y si hay lecciones que podamos extraer de este episodio.

MANTENTE AL DÍA DE LA POLÍTICA DE TECNOLOGÍA: Nuestro boletín diario con las principales historias del día de MediaNama, entregado en su bandeja de entrada antes de las 9 a.m. Haz clic aquí para registrarte hoy!

Anuncio publicitario. Desplácese para continuar leyendo.

Chat GPT bajo el escáner en toda la UE

La prohibición de ChatGPT en Italia se debió a varias razones:

No había base legal para justificar la recopilación masiva de datos para entrenar los algoritmos de Chat GPT.
La IA abierta no tenía mecanismos apropiados de clasificación por edad para garantizar que los datos de los niños no se recopilaran para entrenar algoritmos.

La empresa no avisó adecuadamente a las personas antes de recopilar sus datos.
Chat GPT proporcionó información objetivamente incorrecta.

Italia también había restringido anteriormente «Replika», un chatbot impulsado por IA, por motivos similares. Siguiendo el ejemplo de Italia, los reguladores en Alemania, España, Francia e Irlanda están explorando acciones.

Italia ahora ha pedido a OpenAI que cumpla con ciertas normas para que se levante la prohibición. Open AI debe publicar información sobre su procesamiento de datos y debe aclarar la base legal para el procesamiento de datos personales para el entrenamiento de su IA. Debe permitir a los usuarios buscar la corrección de datos inexactos o su eliminación y permitir a los usuarios oponerse al uso de OpenAI de sus datos personales para entrenar sus algoritmos.

Si bien el enfoque de Italia plantea varias preguntas interesantes, nos enfocamos en un tema clave: entrenar modelos de IA mediante el uso de datos que están disponibles de forma gratuita y pública. Piensa en perfiles públicos de redes sociales, noticias, publicaciones de Reddit, etc.

¿Los datos de fuentes públicas son ‘privados’?

El documento técnico de Chat GPT dice que sus datos de capacitación incluyen «información personal disponible públicamente». Según la legislación de la UE, cualquier dato que pueda identificar a una persona es «información personal». Para recopilar y utilizar dichos datos, una empresa debe cumplir con las normas de privacidad, independientemente de si se recopila directamente del individuo o si está disponible pública y gratuitamente.

Anuncio publicitario. Desplácese para continuar leyendo.

Curiosamente, según la ley de protección de datos actual de la India, las normas de la Ley de tecnología de la información, los datos que están «libremente disponibles» o «accesibles en el dominio público» no se consideran datos confidenciales. Por lo tanto, para recopilar y utilizar dicha información disponible públicamente, no es necesario que cumpla con las normas de protección de datos.

Pero el proyecto de ley de protección de datos personales digitales de 2022 (el proyecto de ley de protección de datos actual de la India) adopta una posición diferente. Uno que es similar al enfoque de la UE. Incluso si recopila datos de fuentes públicas, si se relaciona con un individuo identificable, es ‘personal’. Y todo lo que se debe y no se debe hacer relacionado con la recopilación y el uso de datos personales se aplica a ellos (con una excepción, en torno al consentimiento presunto).

¿Cómo se pueden recopilar y utilizar los datos para entrenar modelos de IA?

En la UE, incluso si una empresa recopila o extrae información personal de Internet, aún debe justificar su recopilación y uso bajo una de las seis «bases» legales establecidas en el RGPD. El consentimiento del usuario es una base. Otro es cumplir un contrato. Pero el que se usa a menudo para entrenar algoritmos de IA o para mejorar un producto son los «intereses legítimos» de una empresa.

Como tal, el proyecto de ley de la India no requiere que el recopilador de datos tenga bases legales. Sin embargo, para recopilar y usar datos personales, una plataforma debe obtener el consentimiento de los usuarios o el consentimiento atribuido, es decir, usted obtiene el consentimiento real de las personas o su recopilación/uso de datos se encuentra dentro de uno de los motivos de «consentimiento atribuido» reconocidos por la ley, como como procesar datos para cumplir con una orden judicial o responder a una emergencia médica o una respuesta de salud pública o procesar datos para «fines razonables» reconocidos por el gobierno indio.

El ‘consentimiento atribuido’ puede ayudar en el entrenamiento de la IA

Anuncio publicitario. Desplácese para continuar leyendo.

Tomar el consentimiento repetido para recopilar datos para entrenar modelos de IA es engorroso. Por lo tanto, es probable que los desarrolladores consideren dos motivos de «consentimiento supuesto» que podrían ser relevantes aquí.

Primero, según el proyecto de ley, se puede asumir el consentimiento cuando está procesando «datos personales disponibles públicamente» en «interés público». Digamos, si una plataforma recoge un hilo público de Reddit donde los usuarios discuten sus peores encuentros de citas, para entrenar su algoritmo. ¿El desarrollador de IA no necesita tomar el consentimiento de los usuarios por separado para procesar estos datos, ya que están disponibles públicamente?

En segundo lugar, se puede inferir el consentimiento cuando una persona proporciona voluntariamente su información y se puede esperar razonablemente que lo haga. Por ejemplo, un usuario se registra en Reddit. La política de privacidad de Reddit dice: “Gran parte de la información de los Servicios es pública y accesible para todos, incluso sin una cuenta. Al usar los Servicios, nos está indicando que compartamos esta información pública y libremente”. ¿Se puede considerar el consentimiento general del usuario a la política de privacidad como consentimiento para compartir sus datos con modelos de IA como Chat GPT y el uso de esos datos por parte de Open AI para algoritmos de entrenamiento?

Curiosamente, plataformas como Reddit comenzarán a cobrar a los desarrolladores de IA por acceder a su contenido. Pero la cuestión del consentimiento/consentimiento presunto permanecería.

Usar datos para entrenar modelos de IA: ¿un propósito razonable?

Mientras India busca establecerse como una potencia de IA, valdría la pena explorar si el uso de datos para entrenar modelos de IA debería ser un «propósito razonable» según la ley de protección de datos de India. Esto debería estar sujeto, por supuesto, a controles y equilibrios apropiados. Por ejemplo, de manera similar a la orientación de Italia, se podría permitir a las personas el derecho a oponerse al uso de sus datos personales para entrenar modelos de IA, una opción de exclusión en lugar de una opción de participación.

Anuncio publicitario. Desplácese para continuar leyendo.

Sreenidhi Srinivasan es socia y Pallavi Sondhi es asociada sénior en Ikigai Law.

Esta publicación se publica bajo un Licencia CC-BY-SA 4.0. Siéntase libre de volver a publicar en su sitio, con atribución y un enlace. La adaptación y la reescritura, aunque permitidas, deben ser fieles al original.

Lea también: