Microsoft publicó recientemente un artículo de investigación titulado: Sparks of Artificial General Intelligence: Early experiments with GPT-4. Como lo describe Microsoft:
Este papel informa sobre nuestra investigación de una versión anterior de GPT-4, cuando aún estaba en desarrollo activo por parte de OpenAI. Sostenemos que (esta primera versión de) GPT-4 es parte de una nueva cohorte de LLM (junto con ChatGPT y PaLM de Google, por ejemplo) que exhiben una inteligencia más general que los modelos de IA anteriores.
En este documento, hay evidencia concluyente que demuestra que GPT-4 va mucho más allá de la memorización y que tiene una comprensión profunda y flexible de conceptos, habilidades y dominios. De hecho, su capacidad para generalizar supera con creces la de cualquier ser humano vivo en la actualidad.
Si bien hemos discutido anteriormente los beneficios de AGI, debemos resumir rápidamente el consenso general de lo que es un sistema AGI. En esencia, un AGI es un tipo de IA avanzada que puede generalizarse en múltiples dominios y no tiene un alcance limitado. Los ejemplos de IA estrecha incluyen un vehículo autónomo, un chatbot, un bot de ajedrez o cualquier otra IA que esté diseñada para un solo propósito.
En comparación, un AGI podría alternar de manera flexible entre cualquiera de los anteriores o cualquier otro campo de especialización. Es una IA que aprovecharía los algoritmos incipientes, como el aprendizaje por transferencia y el aprendizaje evolutivo, al tiempo que explota algoritmos heredados, como el aprendizaje por refuerzo profundo.
La descripción anterior de AGI coincide con mi experiencia personal con el uso de GPT-4, así como con la evidencia compartida en un trabajo de investigación publicado por Microsoft.
Una de las indicaciones descritas en el documento es que GPT-4 escriba una prueba de la infinidad de números primos en forma de poema.
Si analizamos los requisitos para crear un poema de este tipo, nos damos cuenta de que requiere razonamiento matemático, expresión poética y generación de lenguaje natural. Este es un desafío que excedería la capacidad promedio de la mayoría de los humanos.
El documento quería entender si GPT-4 simplemente producía contenido basado en la memorización general versus la comprensión del contexto y la capacidad de razonar. Cuando se le pidió que recreara un poema al estilo de Shakespeare, pudo hacerlo. Esto requiere un nivel multifacético de comprensión que supera con creces la capacidad de la población general e incluye teoría de la mente y genio matemático.
¿Cómo calcular la inteligencia GPT-4?
La pregunta entonces es ¿cómo podemos medir la inteligencia de un LLM? ¿Y GPT-4 muestra comportamientos de verdadero aprendizaje o mera memorización?
La forma actual de probar un sistema de IA es evaluar el sistema en un conjunto de conjuntos de datos de referencia estándar y garantizar que sean independientes de los datos de entrenamiento y que cubran una variedad de tareas y dominios. Este tipo de prueba es casi imposible debido a la cantidad casi ilimitada de datos con los que se entrenó GPT-4.
Luego, el documento profundiza en el territorio de generar tareas y preguntas novedosas y difíciles que demuestran de manera convincente que GPT-4 va mucho más allá de la memorización y que tiene una comprensión profunda y flexible de conceptos, habilidades y dominios.
Cuando se trata de inteligencia, GPT-4 puede generar historias cortas, guiones y puede calcular las fórmulas más complicadas.
GPT-4 también puede codificar a un nivel muy alto, tanto en términos de escritura de código a partir de instrucciones como de comprensión del código existente. GPT-4 puede manejar una amplia gama de tareas de codificación, desde
desafíos de codificación para aplicaciones del mundo real, desde ensamblaje de bajo nivel hasta marcos de trabajo de alto nivel, desde estructuras de datos simples hasta programas complejos como juegos. GPT-4 también puede razonar sobre la ejecución del código, simular los efectos de las instrucciones y explicar los resultados en lenguaje natural. GPT-4 puede incluso ejecutar pseudocódigo,
GPT-4 puede ofrecer respuestas racionales a casi cualquier indicación dada. De hecho, su inteligencia es casi invencible en su complejidad.
Limitaciones de GPT-4
Luego, el documento continúa describiendo cómo probaron las respuestas y comportamientos de GPT-4, para verificar su consistencia, coherencia y corrección, y para descubrir sus limitaciones y sesgos.
La limitación más obvia es su tendencia a alucinar. Aquí hay un ejemplo de una alucinación que se da en el documento donde GPT-4 confiaba en su respuesta, que era completamente falsa.
Parece que incluso GPT-4 entiende esta limitación actual con las alucinaciones, ya que esta fue la respuesta que dio cuando le pregunté qué es una alucinación GPT:
Una alucinación GPT se refiere a un fenómeno en el que un modelo de transformador preentrenado generativo (GPT), como con el que está interactuando actualmente, produce una respuesta que no se basa en información objetiva o no es coherente con el contexto proporcionado. Estas alucinaciones ocurren cuando el modelo genera un texto que puede parecer plausible pero que en realidad es incorrecto, engañoso o sin sentido.
En otras palabras, cuando entrena a una IA LLM en los datos del mundo, ¿cómo evita que un sistema aprenda datos incorrectos? Un gran modelo de lenguaje que aprende y regurgita información errónea y teorías de conspiración en realidad podría ser una de las mayores trampas y amenazas que enfrenta la humanidad con la adopción a gran escala de LLM. En realidad, esta podría ser una de las mayores amenazas de AGI, una que sorprendentemente se pasa por alto cuando se analizan los peligros de AGI.
Pruebas de inteligencia GPT-4
El documento ilustra que no importaba qué tipo de indicaciones complejas se dirigieran hacia él, GPT-4 superaría las expectativas. Como se indica en el documento:
Su incomparable dominio del lenguaje natural. No solo puede generar un texto fluido y coherente, sino también comprenderlo y manipularlo de varias maneras, como resumir, traducir o responder a un conjunto extremadamente amplio de preguntas. Además, al traducir nos referimos no solo a diferentes idiomas naturales, sino también a traducciones en tono y estilo, así como a través de dominios como medicina, derecho, contabilidad, programación informática, música y más.
Se dieron revisiones técnicas simuladas a GPT-4, fácilmente pasó el significado en este contexto si se tratara de un humano en el otro extremo que serían contratados instantáneamente como ingenieros de software. Una prueba preliminar similar de la competencia de GPT-4 en el examen de la barra multiestatal mostró una precisión superior al 70%. Esto significa que en el futuro podríamos automatizar muchas de las tareas que actualmente se le dan a los abogados. De hecho, hay algunas startups que ahora están trabajando para crear abogados robot usando GPT-4.
Produciendo Nuevo Conocimiento
Uno de los argumentos en el documento es que lo único que le queda a GPT-4 para demostrar niveles reales de comprensión es que produzca nuevos conocimientos, como probar nuevos teoremas matemáticos, una hazaña que actualmente permanece fuera del alcance de los LLM.
Por otra parte, este es el santo grial de un AGI. Si bien existen peligros con el control de un AGI en las manos equivocadas, los beneficios de que un AGI pueda analizar rápidamente todos los datos históricos para descubrir nuevos teoremas, curas y tratamientos son casi infinitos.
Un AGI podría ser el eslabón perdido para encontrar curas para enfermedades genéticas raras que actualmente carecen de financiación de la industria privada, para curar el cáncer de una vez por todas y para maximizar la eficiencia de la energía renovable para eliminar nuestra dependencia de la energía insostenible. De hecho, podría resolver cualquier problema consecuente que se introduzca en el sistema AGI. Esto es lo que entienden Sam Altman y el equipo de OpenAI, un AGI es verdaderamente el último invento que se necesita para resolver la mayoría de los problemas y beneficiar a la humanidad.
Por supuesto, eso no resuelve el problema del botón nuclear de quién controla el AGI y cuáles son sus intenciones. Independientemente, este documento hace un trabajo fenomenal al argumentar que GPT-4 es un paso adelante para lograr el sueño que los investigadores de IA han tenido desde 1956, cuando se lanzó por primera vez el taller de verano del Proyecto de Investigación de Verano de Dartmouth sobre Inteligencia Artificial.
Si bien es discutible si GPT-4 es un AGI, se podría argumentar fácilmente que, por primera vez en la historia de la humanidad, es un sistema de IA que puede pasar la prueba de Turing.