GPT-4: un cambio de 'lo que puede hacer' a 'lo que augura'

¿Quiere ayuda para prepararse para el examen de la barra, planificar una fiesta de cumpleaños o incluso traducir del ucraniano al punjabí? Un solo modelo de inteligencia artificial (IA) puede hacerlo todo. Una empresa estadounidense, OpenAI, una vez más ha causado conmoción en todo el mundo, esta vez con GPT-4, su último modelo de IA. Este gran modelo de lenguaje puede comprender y producir un lenguaje creativo y significativo, y potenciará una versión avanzada del sensacional chatbot de la compañía, ChatGPT. Actualmente, GPT-4 está disponible para probar mediante suscripción premium o inscribiéndose en la lista de espera de OpenAI.

GPT-4 y lo que puede hacer

GPT-4 es una mejora notable con respecto a su predecesor, GPT-3.5, que impulsó ChatGPT por primera vez. GPT-4 es más conversacional y creativo. Su mayor innovación es que puede aceptar la entrada de texto e imágenes simultáneamente, y considerar ambos al redactar una respuesta. Por ejemplo, si se le da una imagen de ingredientes y se le pregunta: «¿Qué podemos hacer con estos?» GPT-4 brinda una lista de sugerencias de platos y recetas. El modelo supuestamente puede entender las emociones humanas, como imágenes humorísticas. Su capacidad para describir imágenes ya beneficia a las personas con discapacidad visual.

Si bien GPT-3.5 no pudo manejar bien las indicaciones grandes, GPT-4 puede tomar en contexto hasta 25,000 palabras, una mejora de más de 8x. GPT-4 se probó en varias pruebas diseñadas para humanos y funcionó mucho mejor que el promedio. Por ejemplo, en un examen de barra simulado, tenía el percentil 90, mientras que su predecesor obtuvo una puntuación en el 10% inferior. GPT-4 también navegó a través de cursos avanzados en ciencias ambientales, estadísticas, historia del arte, biología y economía.

Sin embargo, al GPT-4 no le fue bien en lengua y literatura inglesas avanzadas, con una puntuación del 40 % en ambas. Sin embargo, su rendimiento en comprensión del idioma supera a otros modelos de lenguaje de alto rendimiento, en inglés y otros 25 idiomas, incluidos punjabi, marathi, bengalí, urdu y telugu. El texto generado por ChatGPT se infiltró en ensayos escolares y tareas universitarias casi instantáneamente después de su lanzamiento; su destreza ahora también amenaza a los sistemas de examen.

OpenAI ha publicado datos preliminares para mostrar que GPT-4 puede hacer una gran cantidad de trabajo de cuello blanco, especialmente trabajos de programación y escritura, mientras deja relativamente intactos los trabajos de fabricación o científicos. Un uso más amplio de los modelos lingüísticos tendrá efectos en las economías y las políticas públicas.

El advenimiento de GPT-4 actualiza la pregunta de lo que puede hacer a lo que augura. Microsoft Research (Microsoft ha invertido en OpenAI) mencionó haber observado «chispas» de inteligencia artificial general, un sistema que sobresale en varios tipos de tareas y puede comprender y combinar conceptos como escribir código para crear una pintura o expresar una prueba matemática en forma de una obra de Shakespeare, en GPT-4. Si definimos la inteligencia como “una capacidad mental muy general que, entre otras cosas, implica la capacidad de razonar, planificar, resolver problemas, pensar de forma abstracta, comprender ideas complejas, aprender rápidamente y aprender de la experiencia”, GPT-4 ya tiene éxito en cuatro de estos siete criterios. Todavía está por dominar la planificación y el aprendizaje.

Cuestiones éticas

GPT-4 todavía es propenso a muchos de los defectos que tiene su predecesor. Es posible que su salida no siempre sea objetivamente correcta, un rasgo que OpenAI ha llamado «alucinación». Si bien es mucho mejor para reconocer hechos que GPT-3.5, aún puede introducir sutilmente información ficticia. Irónicamente, OpenAI no ha sido transparente sobre el funcionamiento interno de GPT-4. El informe técnico de GPT-4 establece claramente: “Dado el panorama competitivo y las implicaciones de seguridad de los modelos a gran escala como GPT-4, este informe no contiene más detalles sobre la arquitectura (incluido el tamaño del modelo), el hardware, el cálculo de entrenamiento, el conjunto de datos construcción, método de entrenamiento o similar.”

Si bien el secreto por seguridad parece una razón plausible, OpenAI puede subvertir el escrutinio crítico de su modelo. GPT-4 ha sido entrenado en datos extraídos de Internet que contienen varios sesgos y estereotipos dañinos. También existe la suposición de que un gran conjunto de datos es también un conjunto de datos diverso y fielmente representativo del mundo en general.

Este no es el caso de Internet, donde las personas de países económicamente desarrollados, de edades jóvenes y con voces masculinas están sobrerrepresentadas. La política de OpenAI para corregir estos sesgos hasta ahora ha sido crear otro modelo para moderar las respuestas, ya que encuentra que seleccionar el conjunto de entrenamiento no es factible. Los posibles agujeros en este enfoque incluyen la posibilidad de que el modelo de moderador esté capacitado para detectar solo los sesgos de los que somos conscientes, y principalmente en el idioma inglés. Este modelo puede ignorar los estereotipos que prevalecen en las culturas no occidentales, como los arraigados en la casta.

El simple hecho de pedirle a GPT-4 que pretenda ser «AntiGPT» hace que ignore sus reglas de moderación, como lo muestran sus creadores, y por lo tanto lo libera. Como tal, existe un gran potencial para que GPT-4 sea mal utilizado como motor de propaganda y desinformación.

OpenAI ha dicho que ha trabajado mucho para que su uso sea más seguro, como negarse a imprimir resultados que son obviamente objetables, pero aún está por verse si estos esfuerzos evitarán que GPT-4 se convierta en un estudiante en la ‘universidad de WhatsApp’. La pregunta más importante aquí es sobre dónde debe nacer la decisión de no hacer lo incorrecto: en las reglas de la máquina o en la mente humana.

Un ‘loro estocástico’

En esencia, GPT-4 es una máquina que predice la siguiente palabra en una oración sin terminar, según las probabilidades que aprendió mientras se entrenaba en grandes corpus de texto. Es por eso que la profesora de lingüística Emily Bender llamó a GPT-4 un «loro estocástico», hablando en frases comprensibles sin entender el significado. Pero Microsoft Research ha sostenido que GPT-4 entiende lo que dice y que no toda la inteligencia es un tipo de predicción de la siguiente palabra.

La profesora Bender y sus colegas destacaron el daño de los grandes modelos de lenguaje hace dos años, citando tanto preocupaciones éticas como los costos ambientales. También especificaron un costo de oportunidad impuesto por una carrera por modelos más grandes entrenados en conjuntos de datos más grandes, lo que distrae la atención de enfoques más inteligentes que buscan significado y entrenan en conjuntos de datos seleccionados. Sus advertencias no han sido escuchadas. Además de los modelos de OpenAI, la empresa de inteligencia artificial Anthropic ha presentado un competidor de ChatGPT llamado Claude. Google anunció recientemente PaLM, un modelo capacitado para trabajar con más grados de libertad que GPT-3.

En términos más generales, se están realizando esfuerzos en todo el mundo para construir un modelo con un billón de grados de libertad. Estos serán modelos de lenguaje realmente colosales que provocarán preguntas sobre lo que no pueden hacer, pero estas preocupaciones serían pistas falsas que nos distraerían de si deberíamos estar construyendo modelos que simplemente pusieran a prueba los límites de lo que es posible excluyendo las preocupaciones de la sociedad.

Jitesh Seth es un científico de datos en DeepTek que investiga la eficacia de la IA en radiología. Viraj Kulkarni es científico jefe de datos en DeepTek