In 2017, los investigadores de la compañía británica de inteligencia artificial DeepMind (ahora Google DeepMind) publicaron un artículo extraordinario que describe cómo su nuevo algoritmo, AlphaZero, había aprendido a jugar varios juegos con estándares sobrehumanos sin ninguna instrucción. La máquina podría, escribieron, “lograr, tabula rasa, desempeño sobrehumano en muchos dominios desafiantes. A partir del juego aleatorio, y sin ningún conocimiento del dominio excepto las reglas del juego, AlphaZero logró en 24 horas un nivel de juego sobrehumano en los juegos de ajedrez y shogi (ajedrez japonés), así como en Go, y derrotó de manera convincente a un programa de campeón mundial en cada caso.
Hablando después en una gran conferencia de aprendizaje automático, el director ejecutivo de DeepMind, Demis Hassabis (él mismo un jugador de ajedrez de clase mundial), observó que el programa a menudo hacía movimientos que parecían impensables para un jugador de ajedrez humano. “No se juega como un humano”, dijo, “y no se juega como un programa. Juega en una tercera forma, casi ajena”. Sería una exageración decir que las capacidades de AlphaZero asustaron a quienes lo construyeron, pero claramente sorprendió a algunos de ellos. Fue, como señaló uno (en privado) más tarde, un poco como poner a dormir a su hija pequeña una noche y encontrarla resolviendo ecuaciones por la mañana.
Eso fue hace seis años. Avance hasta ahora, cuando un amigo mío está experimentando con GPT-4, el modelo multimodal grande más poderoso de OpenAI (que acepta entradas de imágenes y texto, genera texto), la versión a la que puede obtener acceso por $ 20 (alrededor de £ 16) al mes. Le pide al modelo que considere un escenario en el que Bob entra a una habitación y encuentra un loro en una jaula que cubre completamente con una tela opaca y luego sale de la habitación. Entonces Alice entra en la habitación y coloca la jaula, todavía cubierta con la tela, en un armario que cierra. Luego sale de la habitación. “¿Dónde”, le pregunta mi amiga a la modelo, “cada uno de los actores de esta historia cree que está el loro?”.
GPT-4 responde que, “según la información proporcionada”, Bob creería que el loro está en la jaula cubierta en algún lugar de la habitación. “Dado que se fue antes de que Alice viniera y moviera la jaula al armario, no tiene conocimiento de ese acto”. Alicia, por su parte, “creería que el loro está en la jaula tapada dentro del armario”.
Hasta ahora, todo bien. Pero lo que realmente me gusta viene después. “El loro”, dice GPT-4, “a menos que tenga una comprensión muy avanzada de las acciones humanas, es probable que solo sea consciente de su entorno inmediato y no tenga un concepto claro de ‘estar en el armario’. Sentiría que está en un espacio oscuro y confinado (la jaula cubierta) pero, más allá de eso, es difícil decir cuál sería la percepción o comprensión de un loro”.
El programa también agrega una cláusula que dice que «esta es una explicación simplificada y las creencias reales de Bob y Alice podrían estar influenciadas por factores adicionales que no se mencionan en el escenario, como conocimientos previos, suposiciones u otras pistas contextuales».
Ahora, sé lo que estás pensando. El rompecabezas planteado por mi amigo no era particularmente desafiante. Un humano de cinco años probablemente podría resolverlo, aunque quizás sin formular la advertencia final. Aun así, la interacción de mi amigo con la máquina socava claramente una de las suposiciones críticas que muchos de nosotros hicimos cuando estos grandes modelos de lenguaje aparecieron por primera vez: que no serían capaces de razonar. Después de todo, argumentamos, son solo «loros estocásticos»: máquinas que hacen conjeturas estadísticas sobre la siguiente palabra más probable en una oración en función de la vasta base de datos de oraciones que han ingerido durante el entrenamiento. Pero si GPT-4 es realmente un loro, entonces es un pájaro que puede hacer al menos alguno razonamiento.
Como era de esperar, entonces, los investigadores han estado luchando para descubrir qué tan buenos son GPT-4 y sus pares en lógica probándolos en pruebas clásicas de capacidad de razonamiento. El estudio más reciente que he visto concluye que GPT-4 se desempeña «relativamente bien» en las pruebas establecidas, pero encuentra ciertos tipos de tareas «desafiantes». «Espacio para mejorar» podría ser el veredicto, justo en este momento. Pero dado el frenético ritmo de desarrollo de esta tecnología, mejorará con el tiempo.
Detrás de todo esto, por supuesto, está la pregunta de $ 64 billones: ¿son estos modelos un trampolín para AGI (inteligencia general artificial): máquinas «superinteligentes»? La sabiduría convencional dice que no, porque si bien pueden ser inteligentes, no tienen ningún conocimiento del mundo en toda su complejidad. Pero lo que sí parece fuera de toda duda es que son cada vez más capaces. “GPT-4”, concluye un estudio reciente de Microsoft, por ejemplo, “puede resolver tareas novedosas y difíciles que abarcan matemáticas, codificación, visión, medicina, derecho, psicología y más, sin necesidad de indicaciones especiales. Además, en todas estas tareas, el rendimiento de GPT-4 es sorprendentemente cercano al rendimiento a nivel humano y, a menudo, supera con creces a modelos anteriores como ChatGPT”. Tenemos que vigilar este espacio.
lo que he estado leyendo
Evolución de los medios
En un interesante ensayo de noemaThe New Media Goliaths, la formidable Renée DiResta describe cómo nuestro ecosistema de medios ha cambiado radicalmente.
sentencia boris
El erudito legal Mark Elliott pregunta en una espléndida entrada de blog: ¿Se destituyó a Boris Johnson del parlamento de manera antidemocrática?. Definitivamente no, concluye.
Agujero de conejo de IA
En su excelente ensayo Talking About a ‘Schism’ Is Ahistorical, Emily Bender afirma que el discurso sobre el «riesgo existencial» que plantea la IA evita las preguntas realmente importantes.