Intel y Nvidia se enfrentan en las contrarreloj de GPT-3

Por primera vez, se ha agregado a MLPerf un modelo de lenguaje grande, un impulsor clave de la reciente exageración y esperanza de la IA, un conjunto de puntos de referencia de capacitación de redes neuronales que anteriormente se llamaban las Olimpiadas del aprendizaje automático. Las computadoras construidas alrededor de la GPU H100 de Nvidia y los chips Habana Gaudi2 de Intel fueron las primeras en ser probadas para ver qué tan rápido podían realizar un tren modificado de GPT-3, el modelo de lenguaje grande detrás de ChatGPT.

Una computadora de 3584 GPU ejecutada como una colaboración entre Nvidia y el proveedor de la nube CoreWeave realizó esta tarea en poco menos de 11 minutos. El participante más pequeño, un sistema 256-Gaudi2, lo hizo en poco más de 7 horas. Por chip, los sistemas H100 fueron 3,6 veces más rápidos en la tarea que Gaudi2. Sin embargo, las computadoras Gaudi2 estaban operando «con una mano atada a la espalda», dice Jordan Plawner, director senior de productos de IA en Intel, porque una capacidad llamada precisión mixta aún no se ha habilitado en los chips.

Según una estimación, el tiempo de entrenamiento récord de 11 minutos de Nvidia y CoreWeave aumentaría a aproximadamente dos días de entrenamiento a gran escala.

Los científicos informáticos han descubierto que para el tipo de red neuronal de GPT-3, llamada red transformadora, el entrenamiento puede acelerarse en gran medida al realizar partes del proceso utilizando aritmética menos precisa. Se pueden usar versiones de números de coma flotante de 8 bits (FP8) en ciertas capas de la red, mientras que en otras se necesitan números de 16 o 32 bits más precisos. Averiguar qué capas son cuáles es la clave. Tanto H100 como Gaudi2 se construyeron con hardware de precisión mixta, pero a los ingenieros de cada empresa les llevó tiempo descubrir las capas correctas y habilitarlas. El sistema de Nvidia en el H100 se llama el motor del transformador y estaba completamente comprometido para los resultados de GPT-3.

Los ingenieros de Habana tendrán las capacidades FP8 de Gaudi2 listas para el entrenamiento de GPT-3 en septiembre, dice Plawner. En ese momento, dice, Gaudi2 será «competitivo» con H100, y espera que Gaudi2 supere a H100 en la combinación de precio y rendimiento. Gaudi2, por lo que vale, se fabrica utilizando la misma tecnología de proceso (7 nanómetros) que el predecesor del H100, el A100.

Hacer que GPT-3 funcione

Los grandes modelos de lenguaje «y la IA generativa han cambiado fundamentalmente la forma en que se usa la IA en el mercado», dice Dave Salvatore, director de evaluación comparativa de IA y computación en la nube de Nvidia. Por lo tanto, era importante encontrar una manera de comparar estos gigantes.

Pero convertir GPT-3 en un punto de referencia útil de la industria no fue una tarea fácil. Un entrenamiento completo de la red completa de 1750 millones de parámetros con un conjunto de datos de entrenamiento completo podría llevar semanas y costar millones de dólares. “Queríamos mantener un tiempo de ejecución razonable”, dice David Kanter, director ejecutivo de la organización matriz de MLPerf, MLCommons. “Pero este sigue siendo, de lejos, el más exigente desde el punto de vista computacional de nuestros puntos de referencia”. La mayoría de las redes de referencia en MLPerf se pueden ejecutar en un solo procesador, pero GPT-3 requiere 64 como mínimo, dice.

En lugar de entrenar en un conjunto de datos completo, los participantes entrenaron en una parte representativa. Y no se capacitaron hasta el final, o la convergencia, en el lenguaje de la industria. En cambio, los sistemas se entrenaron hasta un punto que indicaba que un mayor entrenamiento conduciría a la convergencia.

Los sistemas creados con Habana Gaudi2 fueron los únicos sistemas no basados en Nvidia que participaron en el punto de referencia GPT-3 inicial de MLPerf.Intel

Descubrir ese punto, la fracción correcta de datos y otros parámetros para que el punto de referencia sea representativo de la tarea de capacitación completa tomó «muchos experimentos», dice Ritika Borkar, arquitecta senior de aprendizaje profundo en Nvidia y presidenta de la capacitación MLPerf. grupo de trabajo.

En Twitter,
Abhi Venigallaun científico investigador de MosaicML, estimó que el registro de 11 minutos de Nvidia y CoreWeave aumentaría a aproximadamente dos días de entrenamiento a gran escala.

Registros de entrenamiento H100

Esta ronda de MLPerf no se trataba solo de GPT-3, por supuesto; el concurso consta de otras siete pruebas comparativas: reconocimiento de imágenes; segmentación de imágenes médicas; dos versiones de detección de objetos; reconocimiento de voz; procesamiento natural del lenguaje; y recomendación. Cada sistema informático se evalúa según el tiempo que lleva entrenar la red neuronal en un conjunto de datos dado con una precisión particular. Se clasifican en tres categorías: sistemas de computación en la nube, sistemas locales disponibles y sistemas de vista previa, que están programados para estar disponibles dentro de seis meses.

Para estos otros puntos de referencia, Nvidia estuvo involucrada en gran medida en una lucha de poder contra sí misma. La mayoría de los participantes eran de fabricantes de sistemas como Dell, Gigabyte y similares, pero casi todos usaban GPU Nvidia. Ochenta de las 88 entradas funcionaron con ellos, y aproximadamente la mitad de ellos usaron el H100, un chip fabricado con el proceso de 5 nanómetros de Taiwan Semiconductors Manufacturing Co. que se envió a los clientes en el cuarto trimestre de 2022. Las computadoras Nvidia o las de CoreWeave estableció los récords para cada una de las ocho categorías.

Además de agregar GPT-3, MLPerf mejoró significativamente su prueba de sistema de recomendación a un punto de referencia llamado DLRM DCN-V2. “La recomendación es realmente un aspecto crítico para la era moderna, pero a menudo es un héroe anónimo”, dice Kanter. Debido al riesgo que rodea a la información personal identificable en el conjunto de datos, «la recomendación es, en cierto modo, lo más difícil para hacer un punto de referencia», dice.

El nuevo DLRM DCN-V2 está diseñado para adaptarse mejor a lo que está utilizando la industria, dice. Requiere cinco veces más operaciones de memoria, y la red es igualmente más compleja desde el punto de vista computacional. El tamaño del conjunto de datos en el que se entrena es aproximadamente cuatro veces mayor que el 1 terabyte que usó su predecesor.

Puedes ver todos los resultados aquí.

De los artículos de su sitio