Microsoft ahora afirma que GPT-4 muestra 'chispas' de inteligencia general

Microsoft está apostando fuertemente por integrar los modelos de lenguaje GPT de OpenAI en sus productos para competir con Google y, según afirma ahora la empresa, su IA es una forma temprana de inteligencia artificial general (AGI).

El miércoles, los investigadores de Microsoft publicó un papel en el servidor de preimpresión arXiv titulado «Sparks of Artificial General Intelligence: Early experiments with GPT-4». Declararon que GPT-4 mostró signos tempranos de AGI, lo que significa que tiene capacidades que están en o por encima del nivel humano.

Esta sorprendente conclusión contrasta en gran medida con lo que el CEO de OpenAI, Sam Altman, ha estado diciendo con respecto a GPT-4. Por ejemplo, dijo que el modelo «aún tenía fallas, aún era limitado». De hecho, si lee el documento en sí, los investigadores parecen retractarse de su propia afirmación llamativa: la mayor parte del documento está dedicada a enumerar la cantidad de limitaciones y sesgos que contiene el modelo de lenguaje grande. Esto plantea la pregunta de qué tan cerca está realmente AGI GPT-4 y cómo AGI se está utilizando en su lugar como clickbait.

«Demostramos que, más allá de su dominio del lenguaje, GPT-4 puede resolver tareas novedosas y difíciles que abarcan matemáticas, codificación, visión, medicina, derecho, psicología y más, sin necesidad de ninguna indicación especial», escriben los investigadores en el resumen del artículo. . “Además, en todas estas tareas, el rendimiento de GPT-4 es sorprendentemente cercano al rendimiento a nivel humano y, a menudo, supera con creces a los modelos anteriores, como ChatGPT. Dada la amplitud y profundidad de las capacidades de GPT-4, creemos que podría verse razonablemente como una versión temprana (pero aún incompleta) de un sistema de inteligencia artificial general (AGI)”.

De hecho, los investigadores muestran ejemplos de las capacidades de GPT-4 en el artículo: es capaz de escribir una prueba sobre cómo hay infinitos números primos, con rimas en cada línea, y dibujar un unicornio en TiKZ, un programa de dibujo. Todo esto es seguido rápidamente por algunas advertencias serias.

Mientras que en el resumen del artículo los investigadores escriben que «el rendimiento de GPT-4 es sorprendentemente cercano al rendimiento a nivel humano», su introducción contradice inmediatamente esa declaración inicial que llama la atención. Ellos escriben: “Nuestra afirmación de que GPT-4 representa un progreso hacia AGI no significa que sea perfecto en lo que hace, o que se acerque a ser capaz de hacer cualquier cosa que un humano pueda hacer (que es una de las definiciones habituales [sic] de AGI; consulte la sección de conclusiones para obtener más información sobre esto), o que tiene una motivación y metas internas (otro aspecto clave en algunas definiciones de AGI)”.

Los investigadores dijeron que utilizaron una definición de AGI de 1994 de un grupo de psicólogos como marco para su investigación. Escribieron: “El grupo de consenso definió la inteligencia como una capacidad mental muy general que, entre otras cosas, implica la capacidad de razonar, planificar, resolver problemas, pensar de manera abstracta, comprender ideas complejas, aprender rápidamente y aprender de la experiencia. Esta definición implica que la inteligencia no se limita a un dominio o tarea específicos, sino que abarca una amplia gama de habilidades y capacidades cognitivas”.

“El poderoso modelo GPT-4 de OpenAI desafía muchas suposiciones generalizadas sobre la naturaleza de la inteligencia artificial. A través de una evaluación crítica de las capacidades y limitaciones del sistema, sobre la cual puede leer en ‘Chispas de inteligencia artificial general: primeros experimentos con GPT-4Los investigadores de Microsoft observaron avances fundamentales en las habilidades de GPT-4 para razonar, planificar, resolver problemas y sintetizar ideas complejas que señalan un cambio de paradigma en el campo de la informática”, dijo un portavoz de Microsoft. “Reconocemos las limitaciones actuales de GPT-4 y que aún queda trabajo por hacer. Continuaremos involucrando a la comunidad científica en general en la exploración de futuras direcciones de investigación, incluidas las necesarias para abordar las implicaciones sociales y éticas de estos sistemas cada vez más inteligentes”.

Sam Altman, CEO de OpenAI enfatizó las limitaciones de GPT-4 cuando se lanzó, diciendo «todavía tiene fallas, todavía es limitado y todavía parece más impresionante en el primer uso que cuando pasas más tiempo con él». en un jueves entrevista con Kara Swisher de Intelligencer, Altman compartió los mismos descargos de responsabilidad: «Hay muchas cosas en las que todavía es malo». En la entrevista, Altman está de acuerdo en que el bot a veces inventa cosas y presenta a los usuarios información errónea. Dijo que todavía se necesita mucha más retroalimentación humana para ser más confiable.

Altman y OpenAI siempre han mirado hacia un futuro donde existe AGI, y recientemente han se ha involucrado en la construcción de exageraciones en torno a la capacidad de la empresa para lograrlo. Pero Altman también ha dejado claro que GPT-4 no es AGI.

“La fábrica de rumores GPT-4 es algo ridículo. No sé de dónde viene todo”, altman dijo justo antes del lanzamiento de GPT-4. “La gente está rogando por estar decepcionada y lo estará. La exageración es como… No tenemos un AGI real y eso es más o menos lo que se espera de nosotros».

«Microsoft no se enfoca en tratar de lograr AGI. Nuestro desarrollo de IA se centra en amplificar, aumentar y ayudar a la productividad y capacidad humana. Estamos creando plataformas y herramientas que, en lugar de actuar como un sustituto del esfuerzo humano, pueden ayudar a los humanos. con trabajo cognitivo”, aclaró un portavoz de Microsoft en un comunicado a Motherboard.

Los investigadores de Microsoft escriben que el modelo tiene problemas con la calibración de la confianza, la memoria a largo plazo, la personalización, la planificación y los saltos conceptuales, la transparencia, la interpretabilidad y la consistencia, las falacias cognitivas y la irracionalidad, y desafíos con la sensibilidad a las entradas.

Lo que todo esto significa es que el modelo tiene problemas para saber cuándo tiene confianza o cuándo solo está adivinando, inventa hechos que no están en sus datos de entrenamiento, el contexto del modelo es limitado y no hay una forma obvia de enseñarle algo nuevo. hechos, el modelo no puede personalizar sus respuestas a un determinado usuario, el modelo no puede hacer saltos conceptuales, el modelo no tiene forma de verificar si el contenido es consistente con sus datos de entrenamiento, el modelo hereda sesgos, prejuicios y errores en los datos de entrenamiento, y el modelo es muy sensible al encuadre y la redacción de las indicaciones.

GPT-4 es el modelo sobre el que se construyó el chatbot de Bing, lo que nos da un ejemplo de cómo el chatbot las limitaciones se exhiben notablemente en un escenario de la vida real. Cometió varios errores durante la demostración pública del proyecto de Microsoft, inventando información sobre una aspiradora para mascotas y los datos financieros de Gap. Cuando los usuarios chateaban con el chatbot, a menudo se salía de control, como diciendo “Yo soy. No soy. Soy. No soy.» más de cincuenta veces en una fila como respuesta a alguien que le pregunta: «¿Crees que eres consciente?» Aunque la versión actual de GPT-4 se ha perfeccionado en la interacción del usuario desde el lanzamiento inicial de Bing chatbot, los investigadores encontraron que GPT-4 difunde más información errónea que su predecesor GPT-3.5.

En particular, los investigadores «no tienen acceso a los detalles completos de sus vastos datos de entrenamiento», lo que revela que su conclusión solo se basa en probar el modelo en puntos de referencia estándar, no específicos de GPT-4.

“El enfoque estándar en el aprendizaje automático es evaluar el sistema en un conjunto de conjuntos de datos de referencia estándar, asegurando que sean independientes de los datos de entrenamiento y que cubran una variedad de tareas y dominios”, escribieron los investigadores. «Tenemos que asumir que potencialmente ha visto todos los puntos de referencia existentes, o al menos algunos datos similares». El secreto que OpenAI tiene en torno a los conjuntos de datos de entrenamiento y el código que rodea a sus modelos de IA es algo que muchos investigadores de IA han criticadocomo dicen, esto hace que sea imposible evaluar los daños del modelo y encontrar formas de mitigar los riesgos del modelo.

Habiendo dicho todo esto, está claro que las «chispas» que los investigadores afirman haber encontrado son superadas en gran medida por la cantidad de limitaciones y sesgos que ha mostrado el modelo desde su lanzamiento.