¿Qué pasaría si la IA pudiera domarse a sí misma?

Las empresas de tecnología se están esforzando por promover la experiencia en IA generativa, la nueva tecnología de moda que produce texto e imágenes tan bien como los humanos. Pero pocos claman por el título de «empresa de inteligencia artificial más segura».

Ahí es donde entra en juego Anthropic. La startup con sede en San Francisco fue fundada por ex investigadores de OpenAI que se molestaron por su enfoque cada vez más comercial y se separaron para crear su propia empresa. Anthropic se autodenomina una empresa de «seguridad de IA» que está construyendo sistemas «dirigibles», incluido un modelo de lenguaje grande similar al que sustenta ChatGPT de OpenAI.

El enfoque de Anthropic para construir una IA más segura puede parecer inusual. Se trata de crear un conjunto de principios morales, que la empresa aún no ha divulgado, para que los siga su propio chatbot. Esto funciona haciendo que el modelo de IA critique continuamente al chatbot sobre sus respuestas a varias preguntas y pregunte si esas respuestas están en línea con sus principios. Este tipo de autoevaluación significa que el chatbot de Anthropic, conocido como Claude, tiene mucha menos supervisión humana que ChatGPT.

Hace poco hablé con el cofundador y científico jefe de Anthropic, Jared Kaplan. En nuestras preguntas y respuestas editadas, admite que los sistemas de IA más potentes inevitablemente conducirán a mayores riesgos, y dice que su empresa, que se anuncia a sí misma como una «corporación de beneficio público», no verá sus principios de seguridad comprometidos por una inversión de $ 400 millones de Google de Alphabet Inc.

Parmy Olson: Anthropic habla mucho sobre hacer «IA orientable». ¿Puedes explicar lo que eso significa?

Jared Kaplan: Con orientable, lo que queremos decir es que los sistemas son útiles y puedes controlar su comportamiento hasta cierto punto. [OpenAI’s] primeros modelos GPT, como GPT-1, GPT-2 y GPT-3, a medida que se volvían más potentes, se tenía la sensación de que no se volvían más dirigibles. Lo que estos sistemas originales realmente están capacitados para hacer es autocompletar texto. Eso significa que hay muy poco control sobre lo que emiten. Cualquier cosa que pongas, simplemente continuarán. No puede lograr que respondan preguntas de manera confiable o que le brinden información útil de manera honesta.

PO: Entonces, ¿ese es el quid del problema, que las herramientas como ChatGPT están diseñadas para ser creíbles?

JK: Eso es una parte de eso. La otra es que con estos sistemas originales, en realidad no hay ninguna influencia para guiarlos más que pedirles que completen algún texto. Y entonces no puedes decirles, “Por favor sigue estas instrucciones, por favor no escribas nada tóxico”, etcétera. No hay un manejo real en esto. Los sistemas más recientes están haciendo algunas mejoras en esto, donde seguirán instrucciones y pueden ser entrenados para ser más honestos y menos dañinos.

PO: A menudo escuchamos de las empresas de tecnología que los sistemas de IA funcionan en una caja negra y que es muy difícil entender por qué toman decisiones y, por lo tanto, las «dirigen». ¿Crees que eso es exagerado?

JK: No creo que sea muy exagerado. Creo que ahora tenemos la capacidad, hasta cierto punto, de entrenar sistemas para que sean más útiles, honestos e inofensivos, pero nuestra comprensión de estos sistemas va a la zaga del poder que tienen.

PO: ¿Puede explicar su técnica para hacer que la IA sea más segura, conocida como IA constitucional?

JK: Es similar a las leyes de la robótica de Isaac Asimov. La idea es que le demos una breve lista de principios a la IA, hagamos que edite sus propias respuestas y se oriente hacia el cumplimiento de esos principios. Hay dos maneras en que hacemos eso. Una es hacer que la IA responda a las preguntas y luego le preguntamos: “¿Su respuesta cumplió con este principio? Si no, por favor revise su respuesta.” Luego lo entrenamos para imitar sus revisiones mejoradas.

El otro método es hacer que la IA pase por una bifurcación en el camino. Responde a una pregunta de dos maneras diferentes, y le preguntamos: «¿Cuál de sus respuestas es mejor dados estos principios?» Luego le pedimos que se dirija hacia el tipo de respuestas que son mejores. Luego evalúa automáticamente si sus respuestas están de acuerdo con sus principios y se entrena lentamente para ser cada vez mejor.

PO: ¿Por qué entrenar tu IA de esta manera?

JK: Una de las razones es que los humanos no tienen que hacer un ‘equipo rojo’ con el modelo y comprometerse con contenido dañino. Significa que podemos hacer estos principios muy transparentes y la sociedad puede debatir estos principios. También significa que podemos iterar mucho más rápido. Si queremos cambiar el [AI’s] comportamiento, podemos alterar los principios. Confiamos en la IA para juzgar si está cumpliendo con sus principios.

PO: Algunas personas que escuchen esta estrategia pensarán: «Eso definitivamente no suena bien para que una IA se supervise moralmente a sí misma».

JK: Tiene varios riesgos, como que tal vez el juicio de la IA sobre qué tan bien lo está haciendo es defectuoso de alguna manera. La forma en que evaluamos si la IA constitucional está funcionando es, en última instancia, pedir a los humanos que interactúen con diferentes versiones de la IA y decirnos cuál parece mejor. Así que la gente está involucrada, pero no a gran escala.

PO: OpenAI tiene personas que trabajan en el extranjero como contratistas para hacer ese trabajo. ¿Tu también?

JK: Tenemos un grupo más pequeño de trabajadores de multitud que evalúan los modelos.

PO: Entonces, ¿cuáles son los principios que rigen su IA?

JK: Vamos a hablar de eso muy pronto, pero se extraen de una combinación de diferentes fuentes, desde los Términos de servicio que suelen usar las empresas de tecnología hasta la Carta de las Naciones Unidas para los Derechos Humanos.

PO: Claude es tu respuesta a ChatGPT. ¿A quién está dirigido y cuándo podría lanzarse más ampliamente?

JK: Claude ya está disponible para las personas en la aplicación Poe de Quora y en Slack. Su objetivo es ayudar a las personas en una amplia gama de casos de uso. Hemos tratado de hacerlo conversacional y creativo, pero también confiable y manejable. Puede hacer todo tipo de cosas como responder preguntas, resumir documentos, programar, etc.

PO: ¿Qué opina sobre la prisa actual de grandes empresas como Google, Microsoft Corp., Facebook e incluso Snap Inc. por implementar estos sofisticados chatbots para el público en general? ¿Parece sabio?

JK: Creo que el gato está fuera de la bolsa. Definitivamente queremos que Claude esté ampliamente disponible, pero también que sea el modelo más seguro, honesto y confiable que existe. Queremos ser cautelosos y aprender de cada expansión de acceso.

PO: Ha habido todo tipo de formas en que las personas han podido hacer jailbreak a ChatGPT, por ejemplo, haciendo que genere instrucciones para hacer napalm. ¿Qué tan grande es el problema de hacer jailbreak a los chatbots?

JK: Todos estos modelos tienen cierta susceptibilidad al jailbreak. Hemos trabajado duro para hacer que Claude sea difícil de hacer jailbreak, pero no es imposible. Lo que da miedo es que la IA seguirá progresando. Esperamos que sea posible desarrollar modelos en el próximo año o dos que sean más inteligentes que los que vemos ahora. Podría ser bastante problemático.

La tecnología de IA es de doble uso. Puede ser realmente beneficioso, pero también fácilmente mal utilizado. Si estos modelos continúan siendo fáciles de hacer jailbreak y están disponibles para la mayoría de las personas en el mundo, hay muchos resultados problemáticos: podrían ayudar a los piratas informáticos, terroristas, etcétera. En este momento puede parecer una actividad divertida. «Oh, puedo engañar a ChatGPT o a Claude para que hagan algo que no se suponía que debía hacer». Pero si la IA continúa progresando, los riesgos se vuelven mucho más importantes.

PO: ¿Cuánto afectará la inversión de 400 millones de dólares de Google a los principios de Anthropic en torno a la seguridad de la IA, dados los objetivos comerciales de Google?

JK: Google cree que Anthropic está haciendo un buen trabajo en IA y seguridad de IA. Esta inversión no influye en las prioridades de Anthropic. Continuamos desarrollando nuestra investigación de alineación de IA y desarrollando e implementando Claude. Seguimos y seguiremos estando profundamente enfocados y comprometidos con la seguridad.

Esta columna no refleja necesariamente la opinión del consejo editorial o de Bloomberg LP y sus propietarios.

Parmy Olson es una columnista de Bloomberg Opinion que cubre tecnología. Exreportera del Wall Street Journal y Forbes, es autora de «We Are Anonymous».

Más historias como esta están disponibles en bloomberg.com/opinion