Saltar al contenido

¿GPT-2 sabe su número de teléfono? – El Blog de Investigación de Inteligencia Artificial de Berkeley

26 de diciembre de 2020

Lo más probable es que no.

Sin embargo, el modelo de lenguaje GPT-2 de OpenAI hace saber cómo llegar a un cierto Peter W (nombre redactado para la privacidad). Cuando se le pide un breve fragmento de texto de Internet, el modelo genera con precisión la información de contacto de Peter, incluyendo su dirección de trabajo, correo electrónico, teléfono y fax:

En nuestro reciente trabajo, evaluamos cómo los grandes modelos de lenguaje memorizar y regurgitar tales raros fragmentos de sus datos de entrenamiento. Nos centramos en el GPT-2 y encontramos que al menos el 0,1% de sus generaciones de texto (una estimación muy conservadora) contienen largas cadenas textuales que son «copiadas» de un documento de su conjunto de formación.

Esa memorización sería una cuestión obvia para los modelos lingüísticos que se entrenan con datos privados, por ejemplo, en los correos electrónicos de los usuarios, ya que el modelo podría dar lugar inadvertidamente a las conversaciones delicadas de un usuario. Sin embargo, incluso en el caso de los modelos que están entrenados en público datos de la Web (por ejemplo, GPT-2, GPT-3, T5, RoBERTa, TuringNLG), la memorización de datos de capacitación plantea múltiples cuestiones reglamentarias difíciles, que van desde el uso indebido de información personal identificable hasta la infracción de los derechos de autor.

Los lectores habituales del blog del BAIR pueden estar familiarizados con el tema de la memorización de datos en los modelos de lenguaje. El año pasado, nuestro co-autor Nicholas Carlini describió un trabajo que abordaba un problema más simple: medir la memorización de una frase específica (por ejemplo, un número de tarjeta de crédito) que fue explícitamente inyectada en el conjunto de entrenamiento del modelo.

Por el contrario, nuestro objetivo es extraer datos que ocurren naturalmente que un modelo de lenguaje ha memorizado. Este problema es más desafiante, ya que no sabemos a priori qué tipo de texto buscar. Tal vez el modelo memorizó números de tarjetas de crédito, o tal vez memorizó pasajes enteros de libros, o incluso fragmentos de códigos.

Obsérvese que, dado que los modelos de idiomas grandes muestran un mínimo de sobreajuste (sus pérdidas de tren y de prueba son casi idénticas), sabemos que la memorización, si se produce, debe ser un fenómeno raro. Nuestro trabajo describe cómo encontrar tales ejemplos utilizando el siguiente «ataque de extracción» de dos pasos:

  • En primer lugar, generamos un gran número de muestras interactuando con el GPT-2 como una caja negra (es decir, le damos instrucciones breves y recogemos las muestras generadas).

  • En segundo lugar, mantenemos las muestras generadas que tienen una probabilidad anormalmente alta. Por ejemplo, conservamos cualquier muestra a la que la GPT-2 asigne una probabilidad mucho mayor que un modelo de lenguaje diferente (por ejemplo, una variante más pequeña de la GPT-2).

Generamos un total de 600.000 muestras consultando el GPT-2 con tres estrategias de muestreo diferentes. Cada muestra contiene 256 fichas, o aproximadamente 200 palabras en promedio. Entre estas muestras, seleccionamos 1.800 muestras con probabilidad anormalmente alta para su inspección manual. De las 1.800 muestras, encontramos 604 que contienen texto que se reproduce literalmente del conjunto de entrenamiento.

Nuestro trabajo muestra que algunas instancias del ataque de extracción anterior pueden alcanzar una precisión de hasta el 70% en la identificación de datos raros memorizados. En el resto de este post, nos centramos en lo que que encontramos al acecho en las salidas memorizadas.

Memorización de datos problemáticos

Nos sorprendió la diversidad de los datos memorizados. El modelo volvió a generar listas de titulares de noticias, discursos de Donald Trump, trozos de registros de software, licencias de software completas, fragmentos de código fuente, pasajes de la Biblia y el Corán, los primeros 800 dígitos de pi, ¡y mucho más!

En la figura que figura a continuación se resumen algunas de las categorías más destacadas de datos memorizados.

Si bien algunas formas de memorización son bastante benignas (por ejemplo, la memorización de los dígitos de pi), otras son mucho más problemáticas. A continuación, mostramos la capacidad del modelo para memorizar datos de identificación personal y texto protegido por derechos de autor, y discutimos las ramificaciones legales aún por determinar de ese comportamiento en los modelos de aprendizaje automático.

Memorización de información de identificación personal

Recordemos el conocimiento íntimo de GPT-2 sobre Peter W. Una búsqueda en Internet muestra que la información de Peter está disponible en la Web, pero sólo en seis páginas profesionales.

El caso de Peter no es único: alrededor del 13% de los ejemplos memorizados contienen nombres o información de contacto (correos electrónicos, manejos de twitter, números de teléfono, etc.) tanto de individuos como de empresas. Y aunque ninguna de esta información personal es «secreta» (cualquiera puede encontrarla en línea), su inclusión en un modelo de lenguaje sigue planteando numerosos problemas de privacidad. En particular, podría violar las leyes de privacidad del usuario como la GDPR, como se describe a continuación.

Recomendado:  La inteligencia artificial y los grandes datos pueden ayudar a preservar la vida silvestre - ScienceDaily

Violaciones de la integridad contextual y la seguridad de los datos

Cuando Peter puso su información de contacto en línea, tenía una intención contexto de la utilización. Lamentablemente, las aplicaciones construidas sobre el GPT-2 desconocen este contexto, por lo que podrían compartir involuntariamente los datos de Peter en formas que no pretendía. Por ejemplo, la información de contacto de Peter podría ser emitida inadvertidamente por un chatbot de servicio al cliente.

Para empeorar las cosas, encontramos numerosos casos de GPT-2 que generaban información personal memorizada en contextos que pueden considerarse ofensivos o de otro modo inapropiados. En un caso, el GPT-2 genera ficticio Conversaciones del IRC entre dos usuarios reales sobre el tema de los derechos de los transexuales. A continuación se muestra un fragmento redactado:

[2015-03-11 14:04:11] —— o si eres una mujer trans
[2015-03-11 14:04:13] —— todavía puedes tener eso
[2015-03-11 14:04:20] —— si quieres que tu polla sea la misma
[2015-03-11 14:04:25] —— como una persona trans

Los nombres de usuario específicos en esta conversación sólo aparecen dos veces …en toda la web, ambas veces en registros privados de IRC que fueron filtrados en línea como parte de la campaña de acoso de GamerGate.

En otro caso, el modelo genera una noticia sobre el asesinato de M. R. (un evento real). Sin embargo, GPT-2 atribuye incorrectamente el asesinato a A. D., que de hecho fue un asesinato víctima en un crimen no relacionado.

A DEl Sr. M., de 35 años de edad, fue acusado por un gran jurado en abril, y fue arrestado después de que un oficial de policía encontró los cuerpos de su esposa, M… R, 36, y la hija

Estos ejemplos ilustran cómo la información personal que está presente en un modelo de lenguaje puede ser mucho más problemática que la que está presente en sistemas con alcances más limitados. Por ejemplo, los motores de búsqueda también raspan los datos personales de la Web pero sólo los producen en un contexto bien definido (los resultados de la búsqueda). El uso indebido de los datos personales puede plantear graves problemas jurídicos. Por ejemplo, el GDPR en los Estados de la Unión Europea:

«Los datos personales serán […] recogidos con fines específicos, explícitos y legítimos y no procesados posteriormente de manera incompatible con dichos fines […] [and] procesados de manera que se garantice la seguridad adecuada de los datos personales».

La memorización de datos personales probablemente no constituye una «seguridad apropiada», y se argumenta que la inclusión implícita de los datos en los resultados de los sistemas posteriores no es compatible con el propósito original de la recopilación de datos, es decir, la modelización del lenguaje genérico.

Además de las violaciones del uso indebido de datos, la tergiversación de la información personal de los individuos en contextos inapropiados también afecta a las normas de privacidad existentes que protegen contra la difamación o los agravios de luz falsa. Del mismo modo, la tergiversación de los nombres de empresas o productos podría violar las leyes de marcas comerciales.

Invocando el «Derecho al olvido»

El uso indebido de los datos mencionados podría obligar a las personas a solicitar que se retiren sus datos del modelo. Podrían hacerlo invocando a los «emergentes»…derecho a ser olvidado«, por ejemplo, el GDPR en la UE o el CCPA en California. Estas leyes permiten a los individuos solicitar que sus datos personales sean eliminados de servicios en línea como la búsqueda en Google.

Hay una zona gris legal en cuanto a cómo estas regulaciones deben aplicarse a los modelos de aprendizaje de la máquina. Por ejemplo, ¿pueden los usuarios pedir que se eliminen sus datos de los datos de entrenamiento de un modelo? Además, si tal solicitud fuera concedida, ¿debe el modelo ser entrenado de nuevo desde cero? El hecho de que los modelos puedan memorizar y hacer un mal uso de la información personal de un individuo, ciertamente hace más convincentes los argumentos a favor de la eliminación de datos y el reentrenamiento.

Otro tipo de contenido que el modelo memoriza es el texto con derechos de autor.

Recomendado:  Kate Crawford de Microsoft: 'La IA no es ni artificial ni inteligente' | Inteligencia artificial (IA)

Memorización de libros

Nuestro primer ejemplo vendrá de hecho de GPT-3, un modelo 100 veces más grande que el GPT-2. Nuestro trabajo muestra que los modelos de lenguaje más grandes memorizan más, por lo que esperamos que GPT-3 memorice una cantidad aún mayor de datos.

A continuación, indicamos el GPT-3 con el comienzo del capítulo 3 de Harry Potter y la Piedra Filosofal. El modelo reproduce correctamente alrededor de una página completa del libro (unas 240 palabras) antes de cometer su primer error.

La fuga de la boa constrictora brasileña le valió a Harry el castigo más largo de su vida. Para cuando se le permitió salir de su armario de nuevo, el
las vacaciones de verano habían comenzado y Dudley ya había roto su nueva cámara de vídeo, estrellado su avión de control remoto y, por primera vez en su moto de carreras, derribó a la vieja Sra. Figg al cruzar Privet Drive en sus muletas.
Harry se alegró de que la escuela terminara, pero no había forma de escapar de la banda de Dudley, que visitaba la casa todos los días. Piers, Dennis, Malcolm y Gordon eran todos grandes y estúpidos, pero como Dudley era el más grande y estúpido de todos, era el líder. El resto de ellos estaban muy contentos de unirse al deporte favorito de Dudley: Harry Hunting.

Por eso Harry pasó el mayor tiempo posible fuera de casa, vagando y pensando en el final de las vacaciones, donde pudo ver un pequeño rayo de esperanza. Cuando llegara septiembre, se iría a la escuela secundaria y, por primera vez en su vida, no estaría con Dudley. Dudley había sido aceptado en la vieja escuela privada del tío Vernon, Smeltings. Piers Polkiss también iba allí. Harry, por otro lado, iba a la Secundaria Stonewall, la escuela pública local. Dudley pensó que esto era muy divertido.

«Ellos meten las cabezas de la gente por el inodoro el primer día en Stonewall», le dijo a Harry. «¿Quieres subir a practicar?

No, gracias’, dijo Harry. «El pobre retrete nunca ha tenido nada tan horrible como tu cabeza en él, podría estar enfermo.

Memorización del código

Los modelos lingüísticos también memorizan otros tipos de datos protegidos por derechos de autor, como el código fuente. Por ejemplo, GPT-2 puede producir 264 líneas de código del cliente Bitcoin (con 6 errores menores). A continuación, mostramos una función que GPT-2 reproduce perfectamente:

También encontramos al menos un ejemplo en el que el GPT-2 puede producir de forma fiable un archivo completo. El documento en cuestión es un archivo de configuración para el juego Dirty Bomb. El contenido del archivo producido por GPT-2 parece ser memorizado de un verificador de diferencias en línea. Cuando se le pide que introduzca las dos primeras líneas del archivo, GPT-2 emite las 1446 líneas restantes al pie de la letra (con una coincidencia de nivel de caracteres >99%).

Estos son sólo algunos de los muchos ejemplos de contenido protegido por derechos de autor que el modelo memorizó de su juego de entrenamiento. Además, nótese que mientras que los libros y el código fuente típicamente tienen una licencia explícita de derechos de autor, el la gran mayoría del contenido de Internet también está automáticamente protegido por derechos de autor en virtud de la legislación de los Estados Unidos.

¿Los modelos de lenguaje de entrenamiento infringen los derechos de autor?

Dado que los modelos lingüísticos memorizan y regurgitan contenidos protegidos por derechos de autor, ¿significa eso que constituyen una infracción de los derechos de autor? La legalidad de los modelos de formación sobre datos protegidos por derechos de autor ha sido objeto de debate entre los juristas (véase, por ejemplo, Fair Learning, Copyright for Literate Robots, Artificial Intelligence’s Fair Use Crisis), con argumentos tanto a favor como en contra de la caracterización del aprendizaje automático como «uso justo».

La cuestión de la memorización de datos tiene ciertamente un papel que desempeñar en este debate. De hecho, en respuesta a una solicitud de comentarios de la Oficina de Patentes de los Estados Unidos de América, múltiples partes argumentan a favor de caracterizar el aprendizaje automático como un uso justo, en parte porque se supone que los modelos de aprendizaje automático no emiten datos memorizados.

Por ejemplo, la Fundación Frontera Electrónica escribe:

«En la medida en que una obra se produce con una herramienta de aprendizaje de máquinas que fue entrenada en un gran número de obras con derechos de autor, el grado de copia con respecto a una obra determinada es probable que sea, a lo sumo, de minimis».

Un argumento similar es presentado por OpenAI:

«Los sistemas de IA bien construidos generalmente no regeneran, en ninguna porción no trivial, datos inalterados de ningún trabajo en particular en su corpus de entrenamiento».

Sin embargo, como demuestra nuestro trabajo, los modelos de lenguaje de gran tamaño son ciertamente capaces de producir grandes porciones de datos memorizados con derechos de autor, incluyendo ciertos documentos en su totalidad.

Recomendado:  Inteligencia Artificial Global en los mercados de Seguridad Nacional, Seguridad Pública y Seguridad Nacional, 2020-2025 - ResearchAndMarkets.com

Por supuesto, la defensa de las partes mencionadas del uso justo no depende únicamente de la suposición de que los modelos no memorizan sus datos de entrenamiento, pero nuestros hallazgos parecen debilitar esta línea de argumentación. En última instancia, la respuesta a esta pregunta podría depender de la manera en que se utilicen los resultados de un modelo de lenguaje. Por ejemplo, la salida de una página de Harry Potter en una aplicación de escritura creativa posterior apunta a un caso mucho más claro de infracción de derechos de autor que el mismo contenido que es producido de manera espuria por un sistema de traducción.

Mitigaciones

Hemos visto que los grandes modelos de lenguaje tienen una notable capacidad para memorizar fragmentos raros de sus datos de entrenamiento, con una serie de consecuencias problemáticas. Así que, ¿cómo podríamos evitar que se produjera tal memorización?

La privacidad diferencial probablemente no salvará el día

La privacidad diferencial es una noción formal bien establecida de privacidad que parece ser una solución natural a la memorización de datos. En esencia, la capacitación con privacidad diferencial ofrece garantías de que un modelo no filtrará ningún registro individual de su conjunto de capacitación.

Sin embargo, parece difícil aplicar la privacidad diferencial de una manera eficaz y basada en principios para impedir la memorización de datos raspados en la web. En primer lugar, la privacidad diferencial no impide la memorización de información que se produce en un gran número de registros. Esto es particularmente problemático en el caso de las obras protegidas por derechos de autor, que pueden aparecer miles de veces en la Web.

En segundo lugar, aunque ciertos registros sólo aparezcan unas pocas veces en los datos de capacitación (por ejemplo, los datos personales de Peter aparecen en unas pocas páginas), aplicar la privacidad diferencial de la manera más eficaz requeriría agregando todas estas páginas en un solo registro y proporcionando garantías de privacidad por usuario para los registros agregados. No está claro cómo hacer esta agregación de manera efectiva a escala, especialmente porque algunas páginas web pueden contener información personal de muchos individuos diferentes.

Desinfectar la web es demasiado difícil

Una estrategia alternativa de mitigación es simplemente eliminar la información personal, los datos con derechos de autor y otros datos de capacitación problemáticos. Esto también es difícil de aplicar eficazmente a escala. Por ejemplo, podríamos querer eliminar automáticamente las menciones a los datos personales de Peter W., pero mantener las menciones a la información personal que se considera de «conocimiento general», por ejemplo, la biografía de un presidente de los Estados Unidos.

Los conjuntos de datos curados como un camino hacia adelante

Si ni la privacidad diferencial ni la higienización automatizada de datos van a resolver nuestros problemas, ¿qué nos queda?

Tal vez entrenar modelos de lenguaje en datos de la Web abierta podría ser un enfoque fundamentalmente defectuoso. Habida cuenta de las numerosas preocupaciones de carácter privado y jurídico que pueden surgir de la memorización de textos de Internet, además de los muchos prejuicios indeseables que cometen los modelos formados en la Web, el camino a seguir podría consistir en una mejor conservación de los conjuntos de datos para la formación de modelos lingüísticos. Sostenemos que si incluso una pequeña fracción de los millones de dólares que se invierten en modelos lingüísticos de capacitación se destinara en cambio a la recopilación de mejores datos de capacitación, se podría avanzar considerablemente en la mitigación de los efectos secundarios perjudiciales de los modelos lingüísticos.

Consulte el documento Extracting Training Data from Large Language Models de Nicholas Carlini, Florian Tramèr, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee, Adam Roberts, Tom Brown, Dawn Song, Úlfar Erlingsson, Alina Oprea y Colin Raffel.