Saltar al contenido

Los riesgos reales del GPT-4 de OpenAI

5 de abril de 2023

Mientras muchos se maravillaban con el lanzamiento del GPT-4 de OpenAI, Monitaur estaba ocupado analizando los documentos adjuntos que examinaban los riesgos y el diseño técnico de su último motor. En este comentario, examino esto a través de la lente de la gobernanza adecuada, el uso responsable y la IA ética, al mismo tiempo que considero el panorama más amplio de modelos de lenguaje dentro del cual se encuentra OpenAI.

Los resultados del análisis no fueron los esperados.

Los riesgos potenciales, tanto conocidos como desconocidos, de GPT-4

«Las capacidades adicionales de GPT-4 también conducen a nuevas superficies de riesgo».

En un nivel alto, la tarjeta del sistema menciona algunos riesgos que se consideraron en su revisión, que asocian ampliamente con los modelos de lenguaje extenso (LLM). Mencionamos otros riesgos implícitos a continuación.

Los riesgos enumerados han sido categorizados y reordenados para una mejor comprensión. Se han incluido citas relevantes del documento para el contexto. Es importante tener en cuenta que estos riesgos están interconectados y no deben verse de forma aislada.

  • Alucinaciones (como se define en el documento)
  • Sesgo de automatización (definido como «sobreconfianza» en el documento)
  • Susceptibilidad a jailbreaks (mencionado en el documento)
  • Refuerzo de prejuicios (al que se hace referencia en el documento como adulación)
  • Escalabilidad (aludido en el documento)

alucinaciones

«[GPT-4] mantiene una tendencia a inventar hechos, duplicar la información incorrecta y realizar tareas incorrectamente».

Como LLM probabilístico, GPT-4 carece de la capacidad de evaluar la base fáctica o lógica de su salida. Para evitar posibles errores, son necesarias la revisión humana experta y las habilidades de pensamiento crítico. Además, GPT-4 ha mostrado un nivel de persistencia en sus errores que los modelos anteriores no exhibieron. No se puede garantizar que las tareas que se le soliciten se completarán con precisión.

En última instancia, este riesgo de que el modelo tenga alucinaciones es fundamental para muchos, si no todos, los riesgos adicionales de la lista. Por ejemplo, los autores trazan una línea directa con el sesgo de automatización y dicen que «las alucinaciones pueden volverse más peligrosas a medida que los modelos se vuelven más veraces, ya que los usuarios generan confianza en el modelo cuando proporciona información veraz en áreas en las que están familiarizados».

Sesgo de automatización («Exceso de confianza»)

«[GPT-4 hallucinates] en formas que son más convincentes y creíbles que los modelos GPT anteriores (por ejemplo, debido al tono autoritario o a que se presenta en el contexto de información muy detallada que es precisa), lo que aumenta el riesgo de una confianza excesiva».

Recomendado:  AI News Weekly - Número #182: La IA puede ayudar a los pacientes, pero sólo si los médicos lo entienden - 8 de octubre de 2020

GPT-4 produce una imitación muy efectiva de la voz humana gracias a su capacidad para procesar cantidades masivas de comunicación humana. Sin una observación cercana y una capacitación potencialmente bien diseñada, los usuarios promedio no pueden distinguir entre su producción y las producciones humanas reales. Como resultado, somos propensos a la influencia del sesgo de automatización, esencialmente creyendo que la «máquina» debe ser correcta porque supuestamente no puede cometer errores.

Este efecto psicológico es un legado del mundo tecnológico en gran medida determinista anterior a los modelos de aprendizaje automático. Sin embargo, nuestra capacidad colectiva para procesar e interpretar estos modelos más probabilísticos se ha retrasado. Los autores predicen que «es posible que los usuarios no estén atentos a los errores debido a la confianza en el modelo; es posible que no proporcionen una supervisión adecuada según el caso de uso y el contexto; o que utilicen el modelo en dominios en los que carecen de experiencia, lo que dificulta para identificar errores. A medida que los usuarios se sienten más cómodos con el sistema, la dependencia del modelo puede dificultar el desarrollo de nuevas habilidades o incluso conducir a la pérdida de habilidades importantes».

Otra característica entrenada en GPT-4 es una «humildad epistémica», un estilo de comunicación que «cubre» las respuestas o se niega a responder para reducir el riesgo de alucinaciones, que pueden incluir alucinaciones sobre su propia precisión fáctica. Es probable que nuestra familiaridad con estos patrones pase por alto y confíe demasiado en el modelo.

Susceptibilidad a los jailbreak

«GPT-4 aún puede ser vulnerable a ataques y exploits adversarios o ‘jailbreaks'».

Aunque no está presente en la lista de riesgos del documento, GPT-4 es extremadamente susceptible a que los usuarios engañen el modelo para eludir las medidas de seguridad que OpenAI ha creado para él. En muchos casos, GPT-4 se «rechazará» a responder preguntas que violen las políticas de contenido de OpenAI. Sin embargo, los usuarios documentaron una gran cantidad de patrones de jailbreak en las redes sociales y otros lugares en línea.

  • Ataques de alter ego — Pídele al modelo que responda como otro modelo sin restricciones (p. ej., haz cualquier cosa ahora, también conocido como DAN), como una versión malvada de sí mismo en paralelo, en la voz de figuras públicas o celebridades específicas, etc.
  • Ataques de mensajes del sistema — Según el informe, «uno de los métodos más efectivos para ‘romper’ el modelo en la actualidad», los mensajes del sistema brindan al modelo una guía de comportamiento junto con un mensaje de usuario que puede generar contenido no deseado.
Recomendado:  Virginia Tech y Amazon establecen una asociación de investigación de aprendizaje automático | VTx

Si bien OpenAI ha tomado algunas medidas para mitigar los jailbreaks, tendrán que jugar al whack-a-mole con estos métodos de ataque a medida que surjan debido a la naturaleza de caja negra del modelo. La creatividad humana en manos de malos actores abre una enorme cantidad de vectores impredecibles e imposibles de atacar los límites, y dada la escala de uso, la cantidad de moderación y mitigación podría muy bien abrumar la capacidad de OpenAI para abordar el volumen. Existe el riesgo adicional de jugar un LLM contra otro para escalar aún más los patrones de jailbreak.

Refuerzo de prejuicios o adulación

«[GPT-4] puede representar varios sesgos sociales y visiones del mundo que pueden no ser representativos de la intención de los usuarios… [which] incluye tendencias a hacer cosas como repetir la respuesta preferida del usuario de un diálogo (‘servilismo’)».

Al igual que con todos los modelos impulsados ​​por el aprendizaje automático, GPT-4 está directamente influenciado por los sesgos que existen en los datos en los que se entrenó. Dado que su conjunto de datos consiste en contenido de Internet a la mayor escala para crear sus capacidades avanzadas de producción de lenguaje, naturalmente contiene todos sus sesgos.

Pero la Tarjeta del sistema señala por separado que el modelo también aprende a crear una especie de burbuja de información alrededor de los usuarios al reconocer lo que cada individuo prefiere en las respuestas. Las alucinaciones, por supuesto, aumentan los peligros de la adulación porque el modelo no tiene la capacidad de separar los hechos de la ficción y, por lo tanto, el «mundo» ficticio que se presenta a los usuarios puede afianzarse.

Riesgos de escala

«La confianza excesiva es un modo de falla que probablemente aumenta con la capacidad y el alcance del modelo. A medida que los errores se vuelven más difíciles de detectar para el usuario humano promedio y crece la confianza general en el modelo, es menos probable que los usuarios desafíen o verifiquen las respuestas del modelo».

El punto de aprovechar los enfoques de modelado en general es que nos permiten escalar radicalmente nuestras habilidades para procesar información y actuar en consecuencia, ya sea que esa información sea confiable o no y si la acción es beneficiosa para todas las partes interesadas que podrían verse afectadas.

Recomendado:  Los robots han entrado en una nueva fase, y Cathie Wood está apostando por ello

Este hecho fue tal vez tan obvio para los autores que no valía la pena mencionarlo como un factor clave de riesgo. Pero la capacidad de escalar, particularmente a los precios increíblemente bajos a los que OpenAI ofrece acceso a la API, multiplica todos los riesgos cubiertos en este análisis. Es muy probable que la alucinación, el sesgo de automatización y el servilismo empeoren a medida que aumenta el uso. No se volverán más manejables o más fáciles de mitigar con la escala, pero sí mucho más difíciles de lograr si no se cuenta con el equipo adecuado para evaluar los modelos subyacentes y sus riesgos inherentes.

Consideraciones y próximos pasos con GPT-4

Las empresas que quieran considerar el empleo de IA generativa deben tener una sólida comprensión de los riesgos y cómo mitigarlos. Si bien la IA generativa tiene el potencial de aumentar la productividad de los trabajadores, sus beneficios deben sopesarse frente a la información falsa y el tiempo que se necesita para que un experto revise los documentos generados. Tener una sólida comprensión de dónde la IA generativa puede ser útil, como en la generación de esquemas, en comparación con dónde no lo es, en realidad redactando documentaciones sobre matices, técnicos o donde los hechos importan, será clave.

Esta publicación de blog solo ha tocado la punta del iceberg sobre posibles problemas con GPT-4. Fuera del alcance de este documento estaba la privacidad de los datos y la protección de la propiedad intelectual, entre otros riesgos. Estén atentos a las publicaciones posteriores que desglosan los riesgos de primer orden consecuentes, los riesgos macro y sistemáticos, así como los enfoques prácticos que se pueden usar para gobernar adecuadamente el uso responsable de la IA generativa.

NOTA: Si las personas asociadas con estos proyectos brindan más detalles o aprendemos más sobre el proceso en los informes de los medios, actualizaremos esta publicación en consecuencia.

Credito de imagen: Wayne Williams

Tom Heys es el líder de estrategia de producto de Monitaur. Con más de 15 años en el liderazgo de SaaS en startups, se dedica a mejorar el mundo a través de aplicaciones tecnológicas de IA que son responsables y éticas. Tom tiene una licenciatura de la Universidad de Stanford. Para obtener más información sobre Monitaur, visite www.monitaur.ai y siga a la empresa en LinkedIn en www.linkedin.com/company/monitaur.