Los problemas regulatorios de OpenAI apenas comienzan

OpenAI logró apaciguar a las autoridades de datos italianas y levantó la prohibición efectiva del país sobre ChatGPT la semana pasada, pero su lucha contra los reguladores europeos está lejos de terminar.

A principios de este año, el popular y controvertido chatbot ChatGPT de OpenAI se topó con un gran obstáculo legal: una prohibición efectiva en Italia. La Autoridad de Protección de Datos de Italia (GPDP) acusó a OpenAI de violar las normas de protección de datos de la UE y la empresa acordó restringir el acceso al servicio en Italia mientras intentaba solucionar el problema. El 28 de abril, ChatGPT regresó al país y OpenAI abordó ligeramente las preocupaciones de GPDP sin realizar cambios importantes en su servicio, una aparente victoria.

El GPDP ha dicho que «da la bienvenida» a los cambios realizados por ChatGPT. Sin embargo, es probable que los problemas legales de la empresa, y los de las empresas que construyen chatbots similares, recién estén comenzando. Los reguladores en varios países están investigando cómo estas herramientas de inteligencia artificial recopilan y producen información, citando una variedad de preocupaciones, desde la recopilación de datos de capacitación sin licencia por parte de las empresas hasta la tendencia de los chatbots a arrojar información errónea. En la UE, están aplicando el Reglamento General de Protección de Datos (GDPR), uno de los marcos legales de privacidad más fuertes del mundo, cuyos efectos probablemente llegarán mucho más allá de Europa. Mientras tanto, los legisladores del bloque están elaborando una ley que abordará específicamente la IA, probablemente marcando el comienzo de una nueva era de regulación para sistemas como ChatGPT.

Los diversos problemas de ChatGPT con información errónea, derechos de autor y protección de datos han puesto un objetivo en su espalda

ChatGPT es uno de los ejemplos más populares de IA generativa, un término general que cubre las herramientas que producen texto, imagen, video y audio en función de las indicaciones del usuario. Según se informa, el servicio se convirtió en una de las aplicaciones de consumo de más rápido crecimiento en la historia después de alcanzar los 100 millones de usuarios activos mensuales solo dos meses después de su lanzamiento en noviembre de 2022 (OpenAI nunca ha confirmado estas cifras). La gente lo usa para traducir texto a diferentes idiomas, escribir ensayos universitarios y generar código. Pero los críticos, incluidos los reguladores, han destacado la salida poco confiable de ChatGPT, los problemas confusos de derechos de autor y las prácticas turbias de protección de datos.

Italia fue el primer país en hacer un movimiento. El 31 de marzo, destacó cuatro formas en las que creía que OpenAI estaba violando el RGPD: permitir que ChatGPT proporcione información inexacta o engañosa, no notificar a los usuarios sobre sus prácticas de recopilación de datos, no cumplir con ninguna de las seis posibles justificaciones legales para procesar datos personales y no prevenir adecuadamente que los niños menores de 13 años utilicen el servicio. Ordenó a OpenAI que dejara de usar de inmediato la información personal recopilada de ciudadanos italianos en sus datos de capacitación para ChatGPT.

Ningún otro país ha tomado tal acción. Pero desde marzo, al menos tres países de la UE (Alemania, Francia y España) han iniciado sus propias investigaciones sobre ChatGPT. Mientras tanto, al otro lado del Atlántico, Canadá está evaluando las preocupaciones sobre privacidad en virtud de su Ley de Protección de Información Personal y Documentos Electrónicos, o PIPEDA. La Junta Europea de Protección de Datos (EDPB) incluso ha establecido un grupo de trabajo dedicado para ayudar a coordinar las investigaciones. Y si estas agencias exigen cambios de OpenAI, podrían afectar la forma en que se ejecuta el servicio para los usuarios de todo el mundo.

Las preocupaciones de los reguladores se pueden dividir ampliamente en dos categorías: de dónde provienen los datos de capacitación de ChatGPT y cómo OpenAI brinda información a sus usuarios.

ChatGPT utiliza los modelos de lenguaje grande (LLM) GPT-3.5 y GPT-4 de OpenAI, que están entrenados en grandes cantidades de texto producido por humanos. OpenAI es cauteloso sobre exactamente qué texto de capacitación se usa, pero dice que se basa en «una variedad de fuentes de datos con licencia, creadas y disponibles públicamente, que pueden incluir información personal disponible públicamente».

Esto potencialmente plantea grandes problemas bajo GDPR. La ley se promulgó en 2018 y cubre todos los servicios que recopilan o procesan datos de ciudadanos de la UE, sin importar dónde se encuentre la organización responsable. Las reglas de GDPR requieren que las empresas tengan un consentimiento explícito antes de recopilar datos personales, que tengan una justificación legal de por qué se recopilan y que sean transparentes sobre cómo se utilizan y almacenan.

Los reguladores europeos afirman que el secreto en torno a los datos de capacitación de OpenAI significa que no hay forma de confirmar si la información personal ingresada se proporcionó inicialmente con el consentimiento del usuario, y el GPDP argumentó específicamente que OpenAI «no tenía base legal» para recopilarla en primer lugar. . OpenAI y otros se han salido con la suya con poco escrutinio hasta el momento, pero esta afirmación agrega un gran signo de interrogación a los futuros esfuerzos de extracción de datos.

Luego está el «derecho al olvido» de GDPR, que permite a los usuarios exigir que las empresas corrijan su información personal o la eliminen por completo. OpenAI actualizó de manera preventiva su política de privacidad para facilitar esas solicitudes, pero ha habido un debate sobre si es técnicamente posible manejarlas, dado lo complejo que puede ser datos específicos separados una vez que se ha batido en estos grandes modelos de lenguaje.

OpenAI también recopila información directamente de los usuarios. Como cualquier plataforma de Internet, recopila una variedad de datos de usuario estándar (por ejemplo, nombre, información de contacto, detalles de la tarjeta, etc.). Pero, lo que es más importante, registra las interacciones que los usuarios tienen con ChatGPT. Como se indica en una pregunta frecuente, los empleados de OpenAI pueden revisar estos datos y se utilizan para entrenar futuras versiones de su modelo. Dadas las preguntas íntimas que la gente le hace a ChatGPT (utilizando el bot como terapeuta o médico), esto significa que la empresa está recopilando todo tipo de datos confidenciales.

Al menos algunos de estos datos pueden haber sido recopilados de menores, ya que si bien la política de OpenAI establece que «no recopila deliberadamente información personal de niños menores de 13 años», no existe una puerta de verificación de edad estricta. Eso no funciona bien con las reglas de la UE, que prohíben recopilar datos de personas menores de 13 años y (en algunos países) requieren el consentimiento de los padres para menores de 16 años. En el lado de salida, el GPDP afirmó que la falta de filtros de edad de ChatGPT expone a los menores a » respuestas absolutamente inadecuadas con respecto a su grado de desarrollo y autoconciencia”.

OpenAI mantiene una amplia libertad para usar esos datos, lo que ha preocupado a algunos reguladores, y almacenarlos presenta un riesgo de seguridad. Empresas como Samsung y JPMorgan han prohibido a los empleados el uso de herramientas generativas de inteligencia artificial por temor a que carguen datos confidenciales. Y, de hecho, Italia anunció su prohibición poco después de que ChatGPT sufriera una grave fuga de datos, exponiendo el historial de chat y las direcciones de correo electrónico de los usuarios.

La propensión de ChatGPT a proporcionar información falsa también puede plantear un problema. Las regulaciones de GDPR estipulan que todos los datos personales deben ser precisos, algo que el GPDP destacó en su anuncio. Dependiendo de cómo se defina, podría significar problemas para la mayoría de los generadores de texto de IA, que son propensos a las «alucinaciones»: un término cursi de la industria para las respuestas objetivamente incorrectas o irrelevantes a una consulta. Esto ya ha tenido algunas repercusiones en el mundo real en otros lugares, ya que un alcalde regional de Australia amenazó con demandar a OpenAI por difamación después de que ChatGPT afirmara falsamente que había cumplido condena en prisión por soborno.

La popularidad y el dominio actual de ChatGPT sobre el mercado de la IA lo convierten en un objetivo particularmente atractivo, pero no hay razón por la cual sus competidores y colaboradores, como Google con Bard o Microsoft con su IA Azure impulsada por OpenAI, no se enfrenten también al escrutinio. Antes de ChatGPT, Italia prohibió la plataforma de chatbot Replika por recopilar información sobre menores y, hasta ahora, ha permanecido prohibida.

Si bien el RGPD es un poderoso conjunto de leyes, no se creó para abordar problemas específicos de la IA. Reglas que hacer, sin embargo, puede estar en el horizonte.

En 2021, la UE presentó su primer borrador de la Ley de Inteligencia Artificial (AIA), legislación que funcionará junto con el RGPD. La ley rige las herramientas de IA según su riesgo percibido, desde «mínimo» (como filtros de spam) hasta «alto» (herramientas de IA para aplicación de la ley o educación) o «inaceptable» y, por lo tanto, prohibido (como un sistema de crédito social). Después de la explosión de grandes modelos de lenguaje como ChatGPT el año pasado, los legisladores ahora se apresuran a agregar reglas para «modelos básicos» y «Sistemas de IA de uso general (GPAI)», dos términos para sistemas de IA a gran escala que incluyen LLM, y potencialmente clasificar como servicios de “alto riesgo”.

Las disposiciones de la AIA van más allá de la protección de datos. Una enmienda propuesta recientemente obligaría a las empresas a divulgar cualquier material protegido por derechos de autor utilizado para desarrollar herramientas de IA generativa. Eso podría exponer conjuntos de datos que alguna vez fueron secretos y dejar a más empresas vulnerables a demandas por infracción, que ya están afectando a algunos servicios.

Es posible que las leyes diseñadas específicamente para regular la IA no entren en vigor en Europa hasta finales de 2024

Pero pasarlo puede llevar un tiempo. Los legisladores de la UE llegaron a un acuerdo provisional sobre la Ley de IA el 27 de abril. Un comité votará el borrador el 11 de mayo y la propuesta final se espera para mediados de junio. Luego, el Consejo Europeo, el Parlamento y la Comisión tendrán que resolver cualquier disputa restante antes de implementar la ley. Si todo sale bien, podría adoptarse en la segunda mitad de 2024, un poco por detrás del objetivo oficial de las elecciones europeas de mayo de 2024.

Por ahora, la disputa entre Italia y OpenAI ofrece una visión preliminar de cómo podrían negociar los reguladores y las empresas de IA. El GPDP ofreció levantar su prohibición si OpenAI cumplía con varias resoluciones propuestas antes del 30 de abril. Eso incluía informar a los usuarios cómo ChatGPT almacena y procesa sus datos, solicitar su consentimiento explícito para usar dichos datos, facilitar las solicitudes para corregir o eliminar información personal falsa generada por ChatGPT y exigir a los usuarios italianos que confirmen que tienen más de 18 años al registrarse para obtener una cuenta. . OpenAI no acertó todo de esas estipulaciones, pero cumplió lo suficiente como para apaciguar a los reguladores italianos y restaurar el acceso a ChatGPT en Italia.

OpenAI todavía tiene objetivos que cumplir. Tiene hasta el 30 de septiembre para crear un límite de edad más estricto para mantener alejados a los menores de 13 años y requerir el consentimiento de los padres para los adolescentes menores de edad. Si falla, podría volver a verse bloqueado. Pero proporciona un ejemplo de lo que Europa considera un comportamiento aceptable para una empresa de inteligencia artificial, al menos hasta que se establezcan nuevas leyes.