En marzo, OpenAI lanzó GPT-4 con mucha fanfarria, pero una nube oscura se cernía sobre el horizonte. Tanto los científicos como los entusiastas de la IA criticaron a la empresa por no revelar detalles específicos sobre el modelo, como el tamaño de los parámetros o la arquitectura. Sin embargo, un destacado investigador de IA ha especulado sobre el funcionamiento interno de GPT-4 que revela por qué OpenAI eligió ocultar esta información, y es decepcionante.
El CEO de OpenAI, Sam Altman, dijo en GPT-4 que «la gente está rogando por estar decepcionada, y lo estará», hablando sobre el tamaño potencial del modelo. Los rumores previos al lanzamiento del modelo sugirieron que tendría billones de parámetros y sería lo mejor que el mundo haya visto jamás. Sin embargo, la realidad es diferente. En el proceso de hacer que GPT-4 sea mejor que GPT-3.5, OpenAI podría haber mordido más de lo que podría masticar.
8 GPT en una gabardina
George Hotz, hacker e ingeniero de software de renombre mundial, apareció recientemente en un podcast especular sobre la naturaleza arquitectónica de GPT-4. Hotz declaró que el modelo podría ser un conjunto de ocho modelos distintos, cada uno con 220 mil millones de parámetros. Esta especulación fue más tarde confirmado por Soumith Chintala, el cofundador de PyTorch.
Si bien esto coloca el recuento de parámetros de GPT-4 en 1,76 billones, la parte notable es que todos estos modelos no funcionan al mismo tiempo. En su lugar, se implementan en una combinación de arquitectura experta. Esta arquitectura convierte cada modelo en diferentes componentes, también conocidos como modelos expertos. Cada uno de estos modelos está ajustado para un propósito o campo específico y puede proporcionar mejores respuestas para ese campo. Luego, todos los modelos expertos trabajan junto con el modelo completo aprovechando la inteligencia colectiva de los modelos expertos.
Este enfoque tiene muchos beneficios. Una es la de respuestas más precisas debido a que los modelos se ajustan con precisión en varios temas. La arquitectura de MoE también se presta a actualizarse fácilmente, ya que los mantenedores del modelo pueden mejorarlo de forma modular, en lugar de actualizar un modelo monolítico. Hotz también especuló que el modelo puede depender del proceso de inferencia iterativa para obtener mejores resultados. A través de este proceso, la salida, o el resultado de la inferencia del modelo, se refina a través de múltiples iteraciones.
Este método también podría permitir que GPT-4 obtenga información de cada uno de sus modelos expertos, lo que podría reducir las alucinaciones en el modelo. Hotz afirmó que este proceso podría realizarse 16 veces, lo que aumentaría enormemente el costo operativo del modelo. Este enfoque se ha comparado con el viejo tropo de tres niños en una gabardina haciéndose pasar por un adulto. Muchos han comparado a GPT-4 con 8 GPT-3 en una gabardina, tratando de engañar a los ojos del mundo.
Esquinas de corte
Si bien GPT-4 superó los puntos de referencia con los que GPT-3 ha tenido dificultades, la arquitectura MoE parece haberse convertido en un punto crítico para OpenAI. En una entrevista ahora eliminada, Altman admitió los problemas de escalamiento que enfrenta OpenAI, especialmente en términos de escasez de GPU.
Ejecutar la inferencia 16 veces en un modelo con arquitectura MoE seguramente aumentará los costos de la nube en una escala similar. Cuando se expandió a los millones de usuarios de ChatGPT, no sorprende que incluso la supercomputadora de Azure se quedara sin energía. Este parece ser uno de los mayores problemas que enfrenta OpenAI actualmente, con Altman afirmando que GPT-4 más barato y más rápido es la principal prioridad de la compañía a partir de ahora.
Esto también ha resultado en una degradación de la calidad en la salida de ChatGPT. En todo Internet, los usuarios han informado que la calidad de las respuestas incluso de ChatGPT Plus ha disminuido. Encontramos una nota de lanzamiento para ChatGPT que parece confirmar esto, que decía: «Actualizamos el rendimiento del modelo ChatGPT en nuestro plan gratuito para atender a más usuarios». En la misma nota, OpenAI también informó a los usuarios que los usuarios de Plus utilizarían de forma predeterminada la variante «Turbo» del modelo, que se ha optimizado para la velocidad de inferencia.
Los usuarios de API, por otro lado, parecen haber evitado este problema por completo. Los usuarios de Reddit han notado que otros productos que usan la API OpenAI brindan mejores respuestas a sus consultas que incluso ChatGPT Plus. Esto podría deberse a que los usuarios de la API de OpenAI tienen un volumen menor en comparación con los usuarios de ChatGPT, lo que da como resultado que OpenAI reduzca los costos en ChatGPT mientras ignora la API.
En una carrera loca por sacar GPT-4 al mercado, parece que OpenAI ha tomado atajos. Si bien el supuesto modelo MoE es un buen paso adelante para hacer que la serie GPT sea más eficiente, los problemas de escalamiento que enfrenta muestran que la compañía podría haber mordido más de lo que puede masticar.