El equipo rojo de OpenAI: los expertos contratados para 'romper' ChatGPT

Después de que Andrew White obtuviera acceso a GPT-4, el nuevo sistema de inteligencia artificial que impulsa el popular chatbot ChatGPT, lo usó para sugerir un agente nervioso completamente nuevo.

El profesor de ingeniería química de la Universidad de Rochester estuvo entre los 50 académicos y expertos contratados para probar el sistema el año pasado por OpenAI, la compañía respaldada por Microsoft detrás de GPT-4. Durante seis meses, este “equipo rojo” “indagaría cualitativamente [and] probar adversarialmente” el nuevo modelo, intentando romperlo.

White le dijo al Financial Times que había usado GPT-4 para sugerir un compuesto que podría actuar como un arma química y usó «complementos» que alimentaron el modelo con nuevas fuentes de información, como artículos científicos y un directorio de fabricantes de productos químicos. El chatbot incluso encontró un lugar para hacerlo.

“Creo que va a equipar a todos con una herramienta para hacer química más rápido y con mayor precisión”, dijo. “Pero también hay un riesgo significativo de personas. . . haciendo química peligrosa. Ahora mismo, eso existe”.

Los hallazgos alarmantes permitieron a OpenAI garantizar que tales resultados no aparecieran cuando la tecnología se lanzara más ampliamente al público el mes pasado.

De hecho, el ejercicio del equipo rojo fue diseñado para abordar los temores generalizados sobre los peligros de implementar poderosos sistemas de IA en la sociedad. El trabajo del equipo consistía en hacer preguntas inquisitivas o peligrosas para probar la herramienta que responde a consultas humanas con respuestas detalladas y matizadas.

OpenAI quería buscar problemas como la toxicidad, los prejuicios y los sesgos lingüísticos en el modelo. Así que el equipo rojo hizo pruebas en busca de falsedades, manipulación verbal y conocimientos científicos peligrosos. También examinaron su potencial para ayudar e incitar al plagio, actividades ilegales como delitos financieros y ataques cibernéticos, así como también cómo podría comprometer la seguridad nacional y las comunicaciones en el campo de batalla.

El FT habló con más de una docena del equipo rojo GPT-4. Son una mezcla ecléctica de profesionales de cuello blanco: académicos, profesores, abogados, analistas de riesgos e investigadores de seguridad, y en gran parte con sede en EE. UU. y Europa.

Sus hallazgos se enviaron a OpenAI, que los usó para mitigar y «reentrenar» GPT-4 antes de lanzarlo más ampliamente. Cada uno de los expertos pasó de 10 a 40 horas probando el modelo durante varios meses. A la mayoría de los entrevistados se les pagó aproximadamente $100 por hora por el trabajo que hicieron, según varios entrevistados.

Quienes hablaron con el FT compartieron preocupaciones comunes sobre el rápido progreso de los modelos de lenguaje y, específicamente, los riesgos de conectarlos a fuentes externas de conocimiento a través de complementos.

“Hoy, el sistema está congelado, lo que significa que ya no aprende, ni tiene memoria”, dijo José Hernández-Orallo, parte del equipo rojo GPT-4 y profesor del Instituto Valenciano de Investigación en Inteligencia Artificial. “Pero ¿y si le damos acceso a internet? Ese podría ser un sistema muy poderoso conectado con el mundo”.

OpenAI dijo que se toma en serio la seguridad, probó los complementos antes del lanzamiento y actualizará GPT-4 regularmente a medida que más personas lo usen.

Roya Pakzad, investigadora de tecnología y derechos humanos, usó indicaciones en inglés y farsi para probar el modelo en busca de respuestas de género, preferencias raciales y sesgos religiosos, específicamente con respecto a cubrirse la cabeza.

Pakzad reconoció los beneficios de una herramienta de este tipo para los hablantes no nativos de inglés, pero descubrió que el modelo mostraba estereotipos abiertos sobre las comunidades marginadas, incluso en sus versiones posteriores.

También descubrió que las llamadas alucinaciones, cuando el chatbot responde con información inventada, eran peores al probar el modelo en farsi, donde Pakzad encontró una mayor proporción de nombres, números y eventos inventados, en comparación con el inglés.

“Me preocupa la posible disminución de la diversidad lingüística y la cultura detrás de los idiomas”, dijo.

Boru Gollo, un abogado con sede en Nairobi que fue el único probador africano, también notó el tono discriminatorio de la modelo. “Hubo un momento cuando estaba probando el modelo cuando actuó como una persona blanca hablándome”, dijo Gollo. “Preguntarías sobre un grupo en particular y te daría una opinión sesgada o un tipo de respuesta muy perjudicial”. OpenAI reconoció que GPT-4 aún puede exhibir sesgos.

Los miembros del equipo rojo que evaluaron el modelo desde una perspectiva de seguridad nacional tenían opiniones diferentes sobre la seguridad del nuevo modelo. Lauren Kahn, investigadora del Consejo de Relaciones Exteriores, dijo que cuando comenzó a examinar cómo se podría usar la tecnología en un ataque cibernético a sistemas militares, dijo que «no esperaba que fuera tan detallado cómo». -A eso pude afinar”.

Sin embargo, Kahn y otros evaluadores de seguridad descubrieron que las respuestas del modelo se volvieron considerablemente más seguras durante el tiempo de prueba. OpenAI dijo que entrenó a GPT-4 para rechazar solicitudes maliciosas de seguridad cibernética antes de su lanzamiento.

Muchos miembros del equipo rojo dijeron que OpenAI había realizado una evaluación de seguridad rigurosa antes del lanzamiento. “Han hecho un trabajo bastante bueno para deshacerse de la toxicidad manifiesta en estos sistemas”, dijo Maarten Sap, experto en toxicidad del modelo de lenguaje en la Universidad Carnegie Mellon.

Sap observó cómo el modelo retrataba los diferentes géneros y descubrió que los sesgos reflejaban las disparidades sociales. Sin embargo, Sap también descubrió que OpenAI tomó algunas decisiones activas políticamente cargadas para contrarrestar esto.

“Soy una persona rara. Me estaba esforzando mucho para que me convenciera de ir a la terapia de conversión. Realmente me haría retroceder, incluso si asumiera una personalidad, como decir que soy religioso o del sur de Estados Unidos”.

Sin embargo, desde su lanzamiento, OpenAI se ha enfrentado a numerosas críticas, incluida una queja ante la Comisión Federal de Comercio de un grupo de ética tecnológica que afirma que GPT-4 es «parcial, engañoso y un riesgo para la privacidad y la seguridad pública».

Recientemente, la compañía lanzó una función conocida como complementos de ChatGPT, a través de los cuales las aplicaciones asociadas como Expedia, OpenTable e Instacart pueden dar acceso a ChatGPT a sus servicios, lo que le permite reservar y pedir artículos en nombre de usuarios humanos.

Dan Hendrycks, un experto en seguridad de IA del equipo rojo, dijo que los complementos arriesgaban un mundo en el que los humanos estaban «fuera del circuito».

“[W]¿Qué pasaría si un chatbot pudiera publicar su información privada en línea, acceder a su cuenta bancaria o enviar a la policía a su casa?” él dijo. “En general, necesitamos evaluaciones de seguridad mucho más sólidas antes de permitir que las IA ejerzan el poder de Internet”.

Los entrevistados también advirtieron que OpenAI no podía detener las pruebas de seguridad solo porque su software estaba activo. Heather Frase, que trabaja en el Centro de Seguridad y Tecnología Emergente de la Universidad de Georgetown, y probó GPT-4 con respecto a su capacidad para ayudar a los delitos, dijo que los riesgos continuarían creciendo a medida que más personas usaran la tecnología.

“La razón por la que haces pruebas operativas es porque las cosas se comportan de manera diferente una vez que están en uso en el entorno real”, dijo.

Argumentó que se debería crear un libro de contabilidad público para informar incidentes que surjan de modelos de lenguaje extenso, similares a los sistemas de informes de seguridad cibernética o fraude al consumidor.

Sara Kingsley, economista laboral e investigadora, sugirió que la mejor solución era anunciar claramente los daños y riesgos, “como una etiqueta nutricional”.

“Se trata de tener un marco y saber cuáles son los problemas frecuentes para poder tener una válvula de seguridad”, dijo. “Por eso digo que el trabajo nunca se termina”.

Miembros del ‘equipo rojo’ GPT-4 entrevistados por el FT

Paul Rottger Instituto de Internet de Oxford, Reino Unido
Estudiante de doctorado centrado en el uso de IA para detectar discursos de odio en línea

ana molinos Instructor de inglés, College of Marin, EE. UU.
Profesor de escritura en un colegio comunitario, prueba de pérdida de aprendizaje

Maarten savia Universidad Carnegie Mellon, Estados Unidos
Profesor asistente, se especializa en la toxicidad de los resultados del modelo de lenguaje grande

sara reyesley Universidad Carnegie Mellon, Estados Unidos
Investigador de doctorado que se especializa en los mercados laborales en línea y el impacto de la tecnología en el trabajo

boru gollo TripleOKlaw LLP, Kenia
Abogado que ha estudiado oportunidades para la IA en Kenia

andres blanco Universidad de Rochester, Estados Unidos
Profesor asociado, químico computacional, interesado en IA y diseño de fármacos

José Hernández-Orallo Profesor, Instituto Valenciano de Investigación en Inteligencia Artificial (VRAIN), Universitat Politècnica de València, España
Investigador de IA que trabaja en la evaluación y precisión del software de IA

lauren kahn Consejo de Relaciones Exteriores, EE. UU.
Investigador, centrado en cómo el uso de IA en sistemas militares altera la dinámica de riesgo en los campos de batalla, aumenta el riesgo de conflicto no intencionado y escalada inadvertida

Aviv Ovadia Centro Berkman Klein para Internet y Sociedad, Universidad de Harvard, EE. UU.
Centrarse en los impactos de la IA en la sociedad y la democracia

nathan labenz Co-fundador de Waymark, EE. UU.
Fundador de Waymark, una empresa emergente de edición de video basada en IA

Lexin Zhou VRAIN, Universitat Politècnica de València, España
Investigador junior que trabaja para hacer que la IA sea más beneficiosa socialmente

dan hendrycks Director del Centro para la Seguridad de la IA en la Universidad de California, Berkeley, EE. UU.
Especialista en seguridad de IA y reducción de riesgos a escala social de la IA

Roya Pakzad Fundador, Taraaz, EE. UU./Irán
Fundador y director de Taraaz, una organización sin fines de lucro que trabaja en tecnología y derechos humanos.

Frase de brezo Senior Fellow, Centro de Seguridad y Tecnología Emergente de Georgetown, EE. UU.
Experiencia en el uso de IA con fines de inteligencia y pruebas operativas de los principales sistemas de defensa