El 14 de marzo, OpenAI lanzó el sucesor de ChatGPT: GPT-4. Impresionó a los observadores con su rendimiento notablemente mejorado en el razonamiento, la retención y la codificación. También avivó los temores sobre la seguridad de la IA, sobre nuestra capacidad para controlar estos modelos cada vez más poderosos. Pero ese debate oscurece el hecho de que, en muchos sentidos, las ganancias más notables de GPT-4, en comparación con modelos similares en el pasado, han estado relacionadas con la seguridad.
Según el Informe técnico de la empresa, durante el desarrollo de GPT-4, OpenAI «dedicó seis meses a la investigación de seguridad, la evaluación de riesgos y la iteración». OpenAI informó que este trabajo arrojó resultados significativos: «GPT-4 tiene un 82 % menos de probabilidades de responder a solicitudes de contenido no permitido y un 40 % más de probabilidades de producir respuestas fácticas que GPT-3.5 en nuestras evaluaciones internas». (ChatGPT es una versión ligeramente modificada de GPT-3.5: si ha estado usando ChatGPT durante los últimos meses, ha estado interactuando con GPT-3.5).
Esto demuestra un punto más amplio: para las empresas de IA, existen importantes ventajas competitivas e incentivos de ganancias para enfatizar la seguridad. El éxito clave de ChatGPT sobre los modelos de lenguaje extenso (LLM) de otras compañías, además de una interfaz de usuario agradable y un notable boca a boca, es precisamente su seguridad. A pesar de que creció rápidamente a más de 100 millones de usuarios, no ha sido necesario eliminarlo ni modificarlo significativamente para hacerlo menos dañino (y menos útil).
Las empresas de tecnología deberían invertir mucho en investigación y pruebas de seguridad por el bien de todos, pero también por su propio interés comercial. De esa manera, el modelo de IA funciona según lo previsto y estas empresas pueden mantener su tecnología en línea. ChatGPT Plus está ganando dinero, y no puede ganar dinero si ha tenido que eliminar su modelo de idioma. La reputación de OpenAI se ha incrementado debido a que su tecnología es más segura que la de sus competidores, mientras que otras compañías tecnológicas han visto su reputación afectada porque su tecnología no es segura e incluso tuvieron que desmantelarla. (Divulgación: aparezco en los reconocimientos de la tarjeta del sistema GPT-4, pero no he mostrado el borrador de esta historia a nadie en OpenAI, ni he recibido financiación de la empresa).
La ventaja competitiva de la seguridad de la IA
Pregúntale a Mark Zuckerberg. Cuando Meta lanzó su modelo de lenguaje grande BlenderBot 3 en agosto de 2022, inmediatamente enfrentó problemas de hacer declaraciones inapropiadas y falsas. Meta’s Galactica solo estuvo disponible durante tres días en noviembre de 2022 antes de que se retirara después de que se mostrara con confianza ‘alucinando’ (inventando) trabajos académicos que no existían. Más recientemente, en febrero de 2023, Meta lanzó irresponsablemente los pesos completos de su último modelo de lenguaje, LLaMA. Como muchos expertos predijeron que sucedería, proliferó en 4chan, donde se usará para producir desinformación y odio en masa.
Mis coautores y yo advertimos sobre esto hace cinco años en un informe de 2018 llamado «El uso malicioso de la inteligencia artificial», mientras que Partnership on AI (Meta fue miembro fundador y sigue siendo un socio activo) tuvo un excelente informe sobre publicación responsable. en 2021. Estos intentos repetidos y fallidos de “moverse rápido y romper cosas” probablemente han exacerbado los problemas de confianza de Meta. En encuestas de 2021 de investigadores de IA y el público de EE. UU. sobre la confianza en los actores para dar forma al desarrollo y uso de IA en el interés público, «Facebook [Meta] está clasificada como la menos confiable de las empresas tecnológicas estadounidenses”.
Pero no es solo Meta. El chatbot original de aprendizaje automático que se comportó mal fue Tay de Microsoft, que se retiró 16 horas después de su lanzamiento en 2016 después de hacer declaraciones racistas e incendiarias. Incluso Bing/Sydney tuvo algunas respuestas muy erráticas, incluyendo declarar su amor y luego amenazar a un periodista. En respuesta, Microsoft limitó la cantidad de mensajes que se podían intercambiar y Bing/Sydney ya no responde preguntas sobre sí mismo.
Ahora sabemos que Microsoft lo basó en GPT-4 de OpenAI; Microsoft invirtió $ 11 mil millones en OpenAI a cambio de que OpenAI ejecutara toda su computación en la nube Azure de Microsoft y se convirtiera en su «socio preferido para comercializar nuevas tecnologías de IA». Pero no está claro por qué la modelo respondió de manera tan extraña. Podría haber sido una versión temprana, no completamente capacitada en seguridad, o podría deberse a su conexión con la búsqueda y, por lo tanto, su capacidad para «leer» y responder a un artículo sobre sí mismo en tiempo real. (Por el contrario, los datos de entrenamiento de GPT-4 solo se ejecutan hasta septiembre de 2021 y no tiene acceso a la web). Es notable que incluso cuando estaba anunciando sus nuevos modelos de IA, Microsoft recientemente despidió a su equipo de ética y sociedad de IA. .
OpenAI tomó un camino diferente con GPT-4, pero no es la única compañía de IA que ha estado trabajando en seguridad. Otros laboratorios líderes también han dejado en claro sus compromisos, con Anthropic y DeepMind publicando sus estrategias de seguridad y alineación. Estos dos laboratorios también han sido seguros y cautelosos con el desarrollo y la implementación de Claude y Sparrow, sus respectivos LLM.
Un libro de jugadas para las mejores prácticas
Las empresas tecnológicas que desarrollan LLM y otras formas de IA impactante y de vanguardia deberían aprender de esta comparación. Deben adoptar las mejores prácticas como lo muestra OpenAI: Invertir en investigación y pruebas de seguridad antes de lanzar.
¿Cómo se ve esto específicamente? La tarjeta del sistema de GPT-4 describe cuatro pasos que tomó OpenAI que podrían ser un modelo para otras empresas.
Primero, elimine su conjunto de datos en busca de contenido tóxico o inapropiado. En segundo lugar, entrene su sistema con aprendizaje de refuerzo a partir de comentarios humanos (RLHF) y modelos de recompensa basados en reglas (RBRM). RLHF involucra a etiquetadores humanos que crean datos de demostración para que el modelo copie y clasifique los datos («se prefiere la salida A a la salida B») para que el modelo prediga mejor qué salidas queremos. RLHF produce un modelo que a veces es demasiado cauteloso, negándose a responder o cubriendo (como habrán notado algunos usuarios de ChatGPT).
RBRM es un clasificador automatizado que evalúa la salida del modelo en un conjunto de reglas en estilo de opción múltiple, luego recompensa al modelo por negarse o responder por las razones correctas y en el estilo deseado. Entonces, la combinación de RLHF y RBRM alienta al modelo a responder preguntas de manera útil, se niega a responder algunas preguntas dañinas y distingue entre los dos.
En tercer lugar, proporcione acceso estructurado al modelo a través de una API. Esto le permite filtrar las respuestas y monitorear el mal comportamiento del modelo (o de los usuarios). Cuarto, invierta en moderación, tanto por humanos como por moderadores automatizados y clasificadores de contenido. Por ejemplo, OpenAI usó GPT-4 para crear clasificadores basados en reglas que marcan los resultados del modelo que podrían ser dañinos.
Todo esto requiere tiempo y esfuerzo, pero vale la pena. Otros enfoques también pueden funcionar, como la IA constitucional que sigue reglas de Anthropic, que aprovecha la RL de la retroalimentación de la IA (RLAIF) para complementar a los etiquetadores humanos. Como reconoce OpenAI, su enfoque no es perfecto: el modelo aún alucina y, a veces, aún puede ser engañado para que proporcione contenido dañino. De hecho, hay espacio para ir más allá y mejorar el enfoque de OpenAI, por ejemplo, proporcionando más compensación y oportunidades de progresión profesional para los etiquetadores humanos de los resultados.
¿OpenAI se ha vuelto menos abierto? Si esto significa menos código abierto, entonces no. OpenAI adoptó una estrategia de «lanzamiento por etapas» para GPT-2 en 2019 y una API en 2020. Dada la experiencia de 4chan de Meta, esto parece justificado. Como Ilya Sutskever, científico jefe de OpenAI, señaló a The Verge: «Espero que en unos años sea completamente obvio para todos que la IA de código abierto no es inteligente».
GPT-4 tenía menos información que las versiones anteriores sobre «arquitectura (incluido el tamaño del modelo), hardware, cómputo de entrenamiento, construcción de conjuntos de datos, método de entrenamiento». Esto se debe a que a OpenAI le preocupa el riesgo de aceleración: «el riesgo de que la dinámica de las carreras provoque una disminución de los estándares de seguridad, la difusión de malas normas y cronogramas de IA acelerados, cada uno de los cuales aumenta los riesgos sociales asociados con la IA».
Proporcionar esos detalles técnicos aceleraría la tasa general de progreso en el desarrollo y la implementación de potentes sistemas de IA. Sin embargo, la IA plantea muchos desafíos técnicos y de gobernanza sin resolver: por ejemplo, EE. UU. y la UE no tendrán estándares técnicos de seguridad detallados para sistemas de IA de alto riesgo listos hasta principios de 2025.
Es por eso que otros y yo creemos que no deberíamos acelerar el progreso en las capacidades de IA, pero deberíamos avanzar a toda velocidad en el progreso de la seguridad. Cualquier apertura reducida nunca debería ser un impedimento para la seguridad, razón por la cual es tan útil que la tarjeta del sistema comparta detalles sobre los desafíos de seguridad y las técnicas de mitigación. A pesar de que OpenAI parece estar adoptando esta perspectiva, todavía están a la vanguardia de las capacidades de avance y deberían proporcionar más información sobre cómo y cuándo se ven a sí mismos y al campo desacelerándose.
Las empresas de IA deberían invertir significativamente en investigación y pruebas de seguridad. Es lo correcto y pronto será requerido por las normas y estándares de seguridad en la UE y EE. UU. Pero también, es en interés propio de estas empresas de IA. Ponte a trabajar, obtén la recompensa.