¿Reemplazar trabajadores con IA? No se olvide de las tasas de reciclaje • The Register

Comentario Las divagaciones lúcidas y el arte sintetizado por ChatGPT o Stable Diffusion han capturado la imaginación y provocado una gran controversia sobre el papel que desempeñará la IA generativa en nuestro futuro.

Como hemos visto con CNET y Buzzfeed, los ejecutivos no están menos deslumbrados por el potencial creativo de la IA para reemplazar a los trabajadores con ganancias. Pero una de las cosas que a menudo se pasa por alto en estas conversaciones es la necesidad de volver a entrenar estos modelos regularmente o arriesgarse a que envejezcan y se vuelvan irrelevantes, particularmente en entornos que evolucionan rápidamente como las noticias.

ChatGPT, Stable Diffusion, Dall-E-2 y la mayoría de la IA generativa actual se entrenan en grandes conjuntos de datos y luego se ponen a disposición como prueba de conceptos o se exportan como un modelo preentrenado.

Tomemos Stable Diffusion como ejemplo, ya que ofrece una idea de cuán engañoso puede ser el alcance de estos modelos. Al igual que Dall-E-2 Stable Diffusion, es multimodal. Está compuesto por una colección de modelos que trabajan juntos para convertir tus obras en una representación visual.

Pero donde se destaca Stable Diffusion es que su modelo preentrenado puede caber en solo 4 GB de Nvidia vRAM sin enviar la CPU a toda marcha tratando de batir datos. Esto significa que puede ejecutarlo en casa en una computadora portátil o de escritorio decentemente potente siempre que tenga una GPU dedicada con suficiente memoria. La capacidad de ejecutar modelos en casa ha abierto los ojos de muchos de los potenciales de la IA generativa, pero si bien los modelos preentrenados son divertidos, también tienen una vida útil finita.

Imagínese si expusiera a un niño a todo lo que el mundo tiene para ofrecer. Durante 18 años absorben todo el conocimiento que pueden, pero el primer día de su vida adulta son encerrados en una cueva y aislados del mundo. Ahora imagina que le proporcionas a esa persona materiales de arte y le pides que dibuje, pinte y renderice imágenes según tus indicaciones.

Al principio las imágenes serían relativamente precisas, pero cada día que pasa el aislamiento las pone en mayor desventaja. A medida que las indicaciones se aventuran cada vez más en un territorio desconocido, el arte se vuelve cada vez menos preciso.

Un modelo de IA preentrenado no es muy diferente. Es ciego al mundo desde el momento en que se completa su entrenamiento. Esta es la razón por la que para que la IA generativa sea realmente útil, será necesario volver a entrenarla repetidamente. Y aquí radica el problema: si bien todos estos modelos de IA parecen mágicos, entrenarlos incluso una vez sigue siendo una propuesta excepcionalmente costosa.

Esto hace que la escuela privada parezca una ganga

Calcular el costo de la capacitación es complicado porque hay muchas variables en juego. Pero para los propósitos de este artículo, vamos a echar un vistazo a la precisión del punto flotante, el tamaño del modelo y el tiempo de entrenamiento para ayudar a poner todo en perspectiva.

La mayor parte del entrenamiento de IA actual se realiza en GPU, cada una con una cantidad relativamente pequeña de memoria rápida integrada. Las GPU A100 y H100 de Nvidia tienen 80 GB de memoria HBM, mientras que las GPU de AMD e Intel ahora alcanzan los 128 GB. Si bien existen otras arquitecturas con diferentes topologías de memoria, nos apegaremos a la A100 de Nvidia porque el hardware es bien compatible, está ampliamente disponible tanto en entornos locales como en la nube y ha estado ejecutando cargas de trabajo de IA durante años en este momento.

La precisión del punto flotante es uno de los factores más importantes, ya que influye tanto en el tiempo de entrenamiento como en la cantidad de memoria que necesitará el modelo. Este último también dicta la cantidad de cómputo que se requiere, ya que cada acelerador solo tiene cierta cantidad de memoria. El tiempo de entrenamiento en sí mismo es más difícil de cuantificar porque variará según la densidad de cómputo, la cantidad de aceleradores, el tamaño del conjunto de datos, la cantidad de parámetros en juego y cualquier cantidad de otras variables relacionadas.

La mayoría de los modelos actuales se entrenan con FP32, FP16 o Bfloat16, aunque muchos actores de la industria ahora están impulsando los cálculos de FP8. A medida que baja la escala, la precisión se cambia por un mayor rendimiento y los modelos también tienden a ser más pequeños. Por esta razón, no es raro que los modelos utilicen precisión mixta, lo que esencialmente implica el uso de cálculos de menor precisión para algunos parámetros y mayor precisión para otros, generalmente para optimizar el rendimiento.

Entonces, ¿qué tan grandes son estos modelos? Bueno, con ChatGPT generando controversia últimamente, echemos un vistazo a GPT-3 en el que se basa el modelo de IA divisivo. Con 175 mil millones de parámetros, GPT-3, presentado a mediados de 2020, se entrenó en un grupo masivo de GPU Nvidia V100 en un conjunto de datos de aproximadamente 2 TB.

Por lo que entendemos, GPT-3 se entrenó con precisión FP32, lo que significa cuatro bytes por parámetro. Eso equivale a unos 700 GB de vRAM necesarios solo para adaptarse al modelo. Hoy en día, eso requeriría alrededor de diez Nvidia A100 de 80 GB, pero a menos que desee esperar años para que se entrene, querrá algunos trozos más de hierro grande.

Los ingenieros de Nvidia, en colaboración con científicos de la Universidad de Stanford y Microsoft Research, estimaron en un artículo de 2021 que se necesitarían 1024 A100 en 34 días para entrenar GPT-3 en un conjunto de datos de 1,2 TB. Para poner eso en perspectiva, eso es el equivalente a 128 instancias AWS p4de.24xlarge. A $ 40,96 por hora cada uno, y con 816 horas requeridas para entrenar, eso le costaría alrededor de $ 4,28 millones solo para entrenarlo. Ejecutar inferencias en el modelo entrenado para garantizar un rendimiento más inteligente es otro problema completamente diferente.

Y eso es solo GPT-3. Se espera que los modelos futuros sean un orden de magnitud más grandes, y algunos especulan que GPT-4 podría tener un tamaño de un billón de parámetros. Pero, dado que todavía no tenemos detalles firmes sobre GPT-4, veremos otro modelo de lenguaje grande de Nvidia.

He aquí el Megatrón

El modelo de lenguaje Megatron-Turing NLG de Nvidia tiene 530 mil millones de parámetros, lo que lo hace tres veces más grande que GPT-3. Según Nvidia, se necesitaron 2048 Nvidia A100 funcionando con precisión mixta durante ocho semanas para entrenar el modelo. Volviendo a nuestro ejemplo de AWS, ahora estamos hablando de poco más de $14 millones para entrenarlo una vez. No se necesita mucha imaginación para ver por qué volver a entrenar cada semana en un conjunto de datos cada vez más grande podría volverse costoso rápidamente.

Podría preguntarse por qué no capacitarse en las instalaciones si la nube es tan costosa. Este es un punto válido, especialmente si va a volver a entrenar su modelo constantemente, pero aún requiere una gran inversión inicial.

Usando el ejemplo anterior de Megatron-Turning NLG de Nvidia, necesitaría 256 nodos de 8 GPU. Usaremos los servidores DGX A100 de Nvidia como ejemplo. Si bien el costo de estos sistemas varía, hemos visto precios en el vecindario de $ 175,000.

Para 256 nodos, los costos ascienden a $ 44,8 millones y eso no considera la energía y el mantenimiento necesarios para mantenerlos en funcionamiento. A plena carga, un clúster de 256 nodos podría consumir 1,7 megavatios por hora. Suponiendo una recapacitación constante, está buscando $ 2.2 millones al año en poder. Por supuesto, en realidad debería ser un poco menos que eso.

La proliferación de aceleradores más rápidos y cálculos de precisión más bajos/mixtos ciertamente ayudará, pero eso suponiendo que los modelos no continúen superando nuestros avances en silicio.

El punto de los rendimientos decrecientes

Si hemos aprendido algo sobre la naturaleza humana, es que tomaremos todos los atajos que podamos si eso significa ganar dinero. Los modelos masivos de lenguaje natural como ChatGPT pueden ser impresionantes, pero el costo total de capacitarlos y luego volver a capacitarlos los hará tan poco prácticos que solo las empresas más grandes pueden permitirse utilizarlos en todo su potencial.

Las empresas como Microsoft, que operan clústeres de GPU masivos con decenas de miles de aceleradores, están bien posicionadas para hacer precisamente eso, por lo que no sorprende que la empresa esté realizando inversiones masivas en empresas como OpenAI.

Pero a medida que maduran los modelos y aceleradores de IA, es probable que prolifere la cantidad de modelos adaptados a aplicaciones específicas.

Ya hemos visto surgir una gran cantidad de generadores de arte de IA a raíz de Dall-E. Pero a pesar de no ofrecer el mismo grado de pulido que sus rivales, la naturaleza de código abierto de Stable Diffusion y su capacidad no solo para implementarse, sino también para entrenarse en hardware de consumo, lo han convertido en un éxito destacado.

Stable Diffusion también demuestra que la IA no es inmune a la regla de los rendimientos decrecientes. Los autos de lujo pueden cautivar a los conductores, pero si no pueden pagarlos, se las arreglan con su Ford o Honda. Si bien puede carecer del estilo o el prestigio de una marca de lujo, aún lo llevará al punto A a B. No hay razón para pensar que lo mismo no ocurrirá con la adopción de IA en la empresa.

En última instancia, el objetivo no es la perfección, es la mediocridad. Siempre que el modelo sea lo suficientemente bueno, y cueste menos que tener una persona que lo haga, la IA se habrá pagado sola. Y como hemos discutido, hay muchas esquinas para cortar. ®