El sistema de supercomputación Fugaku basado en brazo de Japón ha sido reconocido como el superordenador más poderoso del mundo. En junio de 2020, el sistema obtuvo el primer lugar en el ranking Top500 de los 500 sistemas informáticos disponibles comercialmente más potentes del planeta, por su desempeño en una métrica de larga data para el cálculo científico masivo. Aunque las tareas modernas de supercomputación a menudo enfatizan capacidades algo diferentes, Fugaku también supera en otras medidas.
«Es asombroso en todos los puntos de referencia. Esta arquitectura simplemente gana a lo grande», dijo Torsten Hoefler del Instituto Federal Suizo de Tecnología (ETH) de Zurich. «Es un paso supergrande». Hoefler compartió el Premio ACM Gordon Bell 2019 con un equipo de ETH Zurich para simulaciones de calor y flujo electrónico cuántico en transistores a nanoescala realizadas en parte en el anterior líder Top500, el Summit System en el Laboratorio Nacional Oak Ridge (ORNL) del Departamento de Energía de EE. UU. Tennesse.
El rendimiento de Fugaku en el benchmark de alto rendimiento Linpack (HPL) del Top500 es un impresionante 0,4 exaflop / s (1018 operaciones de punto flotante por segundo), superando a Summit por un factor de 2,8 en aritmética de doble precisión (64 bits). Para operaciones más rápidas y de menor precisión, el sistema Fugaku ya ha superado un exaflop / s.
Figura. La supercomputadora Fugaku, actualmente la más rápida del mundo, en el Centro Riken de Ciencias Computacionales en Kobe, Japón.
Sin embargo, al aceptar el premio Top500, Satoshi Matsuoka, director del Centro RIKEN de Ciencia Computacional (R-CCS) financiado por el gobierno japonés en Kobe, enfatizó que el diseño, realizado en estrecha colaboración con Fujitsu, estaba motivado por el desempeño en aplicaciones del mundo real. «Nuestra intención nunca fue construir una máquina que solo superara los puntos de referencia», dijo Matsuoka, quien compartió el premio ACM Gordon Bell con un equipo de colegas en 2011.
El pionero de Top500, Jack Dongarra, de ORNL y la Universidad de Tennessee en Knoxville, dijo que se esperaba que tres nuevos sistemas en los EE. UU., Y posiblemente otros en China, lograran un rendimiento exaflop / s en aritmética de 64 bits durante el próximo año. Incluso si su supremacía es fugaz, la arquitectura Fugaku incluye innovaciones, en particular aritmética vectorial, que podrían facilitar la programación y ejemplificar un paradigma alternativo para diseñar computadoras de alto rendimiento.
Volver arriba
Carrera a la cima
La lista Top500 incluye 500 sistemas potentes de todo el mundo, pero los pocos que se encuentran entre los primeros reciben la mayor atención. Estos sistemas tienden a financiarse como recursos nacionales en instalaciones importantes como los laboratorios nacionales de EE. UU. Y RIKEN, un instituto de investigación respaldado por el gobierno japonés. En esto, y en su costo, las principales supercomputadoras son similares a instrumentos científicos como el telescopio espacial Hubble. «Se informa que la máquina Fugaku cuesta mil millones de dólares estadounidenses». desarrollar y construir, dijo Dongarra. «Están impulsando la tecnología y usted paga un precio por eso». Fugaku comprende 158,976 nodos (más de 7 millones de núcleos de CPU) distribuidos entre 432 racks. Incluyendo la infraestructura de apoyo, consume unos 30MW de electricidad, suficiente para abastecer a unos 20.000 hogares estadounidenses.
A diferencia del Hubble, que solo hace astronomía, estos sistemas ejecutan simulaciones que arrojan luz sobre una amplia gama de desafíos científicos. «Las 10 mejores máquinas están realmente construidas para resolver problemas que ninguna otra máquina puede resolver», dijo Hoefler, incluidos «los grandes problemas de la sociedad» como el cambio climático, la investigación del cerebro y recientemente la crisis del COVID-19. Su diseño de uso general los hace un poco menos eficientes que una máquina especializada, pero garantiza un amplio apoyo financiero. Su estado insignia también excluye los chips especializados, como los que se están desarrollando para el aprendizaje automático. «Creo que la gente se lo pensaría dos veces antes de construir una máquina de 200 millones de dólares basada en esos chips», dijo Hoefler, especialmente porque los algoritmos utilizados para la computación de vanguardia continúan evolucionando rápidamente.
Fugaku se basa en un procesador Fujitsu designado A64FX, desarrollado para este sistema en colaboración con ARM. Se espera que también encuentre uso en otras computadoras de alta potencia, incluido un sistema desarrollado por Cray y otros comercializados por Fujitsu. «La arquitectura pionera de los sistemas en el Top500 se utilizará en la industria para resolver problemas de ingeniería reales», dijo Hoefler.
No obstante, basar Fugaku en un chip dedicado es una desviación de las arquitecturas de supercomputadoras superiores recientes, que aprovechan chips de mayor volumen diseñados para aplicaciones menos exigentes. Este enfoque reduce muchos costos de diseño y desarrollo necesarios para seguir el ritmo de la tecnología de semiconductores en avance. Sin embargo, el enfoque estándar tiene sus propios riesgos. En el verano de 2020, Intel anunció problemas de fabricación con sus últimos chips, que pueden resultar en retrasos para las supercomputadoras de exaescala con sede en EE. UU. Que los incorporarán.
Cada chip A64FX, fabricado con el proceso FinFET de 7 nm de TSMC, contiene casi 90 mil millones de transistores y cuenta con 48 CPU Arm 8.2A, cuyo diseño de computación de conjunto de instrucciones reducido (RISC) contrasta con la mayoría de los procesadores empleados en el Top500. Dongarra dice que el 94% de las máquinas Top500 usan procesadores Intel, que ofrecen computación de conjunto de instrucciones complejas (CISC) a los programadores, mientras que solo tres usan ARM actualmente. Summit, sin embargo, utiliza el procesador Power9 de IBM, que también tiene una arquitectura RISC.
El proceso Chip-on-Wafer-on-Substrate (CoWoS) de TSMC se utiliza para apilar memoria de alto ancho de banda (HBM2) en la parte superior del chip del procesador. «Nuestros estudios muestran que el ancho de banda es muy importante para mantener la velocidad de las aplicaciones», enfatizó Matsuoka. Los chips también proporcionan interfaces con una versión actualizada de la interconexión Tofu, un sistema con una topología de toro de seis dimensiones que fue previamente desarrollado por Fujitsu.
Volver arriba
La venganza de la arquitectura vectorial
Desde una perspectiva arquitectónica, la elección más dramática es lo que Fugaku no tiene: unidades de procesador de gráficos o GPU. Estos chips de cálculo intensivo cada vez más potentes, a menudo fabricados por Nvidia o AMD, se utilizan con frecuencia como aceleradores rentables para descargar cálculos paralelos intensivos de las CPU tanto para cálculos científicos de alto rendimiento como para aprendizaje automático.
Dongarra dice que el 94% de las máquinas Top500 utilizan procesadores Intel; Fugaku se basa en el procesador Fujitsu A64FX, desarrollado para él en colaboración con ARM.
En cambio, las CPU de Fugaku incorporan instrucciones que ARM llama Scalar Vector Extension (SVE). En comparación con las GPU, esta arquitectura vectorial es «una arquitectura más elegante y más fácil de compilar que intenta aprovechar ese mismo nivel de paralelismo», dijo David Patterson, profesor emérito de la Universidad de California en Berkeley y co-receptor ( con John Hennessy) del 2017 ACM AM Premio Turing. «Puede explicarles cómo funciona a los científicos, tiene una elegancia que le permite escalar a computadoras muy poderosas con el tiempo, y es fácil de compilar».
«Ha pasado mucho tiempo desde que la computadora más rápida del Top500 tenía un procesador vectorial», señaló Patterson. «¿Es así como se verán más las cosas en el futuro? Será interesante de ver».
Aunque las operaciones de vector de longitud fija se han implementado en otros lugares, SVE se remonta al tipo de operaciones de vector originalmente imaginado por Seymour Cray en sus primeros superordenadores. «No es un vector de tamaño fijo, sino un vector de tamaño variable, donde se pueden vectorizar ciclos completos», dijo Hoefler.
Las GPU tradicionalmente obligan a los usuarios a identificar el código sensible al rendimiento y especifican explícitamente un paralelismo de grano fino para esas operaciones. «En el sistema Fugaku, no es necesario», dijo Hoefler. «Fugaku es una especie de primera implementación seria de esos [ideas], al menos desde la época de Cray. Esos podrían ser realmente más fáciles de programar. Estoy muy emocionado por esto «.
Las CPU también suelen necesitar más potencia que las GPU, pero en el A64FX, «nuestra eficiencia energética está prácticamente en el rango de las GPU o las últimas razas de aceleradores especializados, mientras que es una CPU de uso general», dijo Matsuoka. «Esto se debió a que realmente nos sintonizamos con la informática de alto rendimiento».
Volver arriba
Décadas de progreso
El Top500 ha estado rastreando la mejora exponencial en el rendimiento de las supercomputadoras desde 1993, basándose en el punto de referencia de Linpack que Dongarra desarrolló en 1979. En ese momento, dijo, las operaciones de punto flotante eran caras, por lo que las multiplicaciones de matrices de 64 bits formaban el núcleo del punto de referencia. La misma métrica todavía se usa para juzgar al Top500 hoy.
La computación en paralelo se ha vuelto particularmente importante a medida que las velocidades de reloj en procesadores individuales alcanzan un techo debido al calentamiento del chip y otros problemas. Sin embargo, debido a que cualquier cálculo tiene algunas partes que deben realizarse en serie, agregar más procesadores en paralelo da rendimientos decrecientes en la aceleración.
No obstante, los procesadores más paralelos permiten a los investigadores atacar problemas más grandes de manera eficiente. «No todo el mundo quiere resolver el mismo problema más rápido», dijo Patterson. «Linpack realmente adoptó eso y permite a las personas resolver cualquier tamaño de matriz que deseen. Cuanto más grande es la computadora, más grande es la matriz. No sé cuántas personas quieren resolver un problema de 10 millones por 10 millones de matriz densa en un lado , pero ese es el problema que están resolviendo «. Cuando se introdujo Linpack, «estas grandes matrices eran la carga de trabajo total que la gente estaba ejecutando en esas máquinas», coincidió Hoefler, pero «siguiendo la Ley de Moore durante 40 años, las matrices que la gente puede resolver en estas máquinas hoy en día son mucho más grandes que cualquier otra persona. haría en la práctica «.
«Si bien es interesante desde una perspectiva histórica, probablemente no refleja realmente el tipo de rendimiento que vemos para lo que llamaré aplicaciones normales que se ejecutan en supercomputadoras», reconoció Dongarra. En particular, dijo, incluso en cálculos científicos intensivos, como resolver las ecuaciones diferenciales parciales que aparecen en las simulaciones de sistemas tridimensionales complejos como los modelos climáticos, las matrices son escasas, lo que significa que solo tienen un pequeño número de elementos distintos de cero. entradas, organizadas en patrones predecibles.
Para evaluar estas operaciones de matriz dispersa, el equipo Top500 también realiza un seguimiento de la referencia HPCG (gradientes conjugados de alto rendimiento). Además, las aplicaciones de aprendizaje automático generalmente no requieren una precisión total de 64 bits, por lo que Dongarra y sus colegas han introducido una versión de menor precisión llamada HPL-AI. Aún así, en estos dos puntos de referencia, Fugaku también ocupa el primer lugar, logrando 1.4 exaflop / s en HPL-AI.
No obstante, a Patterson le preocupa «si el punto de referencia de Linpack está conduciendo a innovaciones de arquitectura que permiten algoritmos importantes, o … simplemente estamos creando ponis de un solo truco». Ha estado apoyando una alternativa, conocida como MLPerf, que incluye los aspectos de formación e inferencia del aprendizaje automático. Cuenta con un conjunto de tareas que se actualizan con frecuencia, incluido, por ejemplo, un modelo de lenguaje a gran escala dentro de los dos años posteriores al artículo de investigación que lo presentó. MLPerf también tiene una categoría «abierta» que deja la implementación sin especificar, para fomentar la innovación algorítmica. «El desafío de referencia es, ¿cómo se puede enfrentar un desafío justo y fomentar la innovación?» Patterson señaló.
Aún así, Hoefler cree que la continuidad del Top500 proporciona un contexto importante para máquinas como Fugaku, y señala que los algoritmos de aprendizaje automático aún dependen en gran medida de las mismas operaciones fusionadas de suma múltiple que impulsan las multiplicaciones de matrices. «El HPL es menos relevante de lo que era, pero creo que es increíblemente importante desde una perspectiva histórica».
Otras lecturas
Top500: La lista www.top500.org
Informe sobre el sistema Fujitsu Fugaku, Jack Dongarra, junio de 2020, https://bit.ly/2EQS6Yt
Puntos de referencia de MLPerf, https://mlperf.org/
Volver arriba
© 2021 ACM 0001-0782 / 21/1
El permiso para hacer copias digitales o impresas de parte o la totalidad de este trabajo para uso personal o en el aula se otorga sin cargo siempre que las copias no se realicen o distribuyan con fines de lucro o ventaja comercial y que las copias lleven este aviso y la cita completa en la primera página. Se deben respetar los derechos de autor de los componentes de este trabajo que son propiedad de terceros distintos de ACM. Se permite resumir con crédito. Copiar de otra manera, volver a publicar, publicar en servidores o redistribuir a listas, requiere permiso y / o tarifa específicos previos. Solicite permiso para publicar a permissions@acm.org o envíe un fax al (212) 869-0481.
La Biblioteca digital es una publicación de la Association for Computing Machinery. Copyright © 2021 ACM, Inc.
entradas no encontradas