Saltar al contenido

The Edge es solo un clúster masivo distribuido geográficamente

10 de septiembre de 2021

Patrocinado Si tiene cien o mil máquinas que desea trabajar en conjunto para ejecutar una simulación o un modelo o una carga de trabajo de entrenamiento de aprendizaje automático que no puede realizar físicamente una sola máquina, crea un clúster de sistemas distribuidos y hay todos tipos de herramientas conocidas para administrar los nodos de servidor subyacentes, para crear el entorno informático general y luego dividirlo en pedazos para impulsar el trabajo a través de él.

A medida que evoluciona actualmente, la vanguardia está llevando la computación distribuida a otro nivel. Ahora, en lugar de tener todos los nodos de servidor que representan el clúster en un solo lugar ejecutando un gran trabajo o varios más pequeños que pueden ser administrados por un programador de trabajos y un administrador de carga de trabajo y configuración, el clúster se distribuirá en cientos o miles. , o potencialmente decenas de miles de elementos informáticos y de almacenamiento físicamente distintos y muy probablemente aislados en latencia. Estos elementos pueden ser grupos de bebés o nodos únicos; en realidad, no importa. Lo que importa es que muchas de las mismas técnicas que se utilizan para administrar un clúster de HPC tradicional se pueden extender para administrar el borde, que muy probablemente ejecutará cargas de trabajo de IA sensibles a la latencia que, para todos los propósitos prácticos, se consideran mejor como HPC. .

“Dados todos estos escenarios posibles, tener una capa de administración consistente sin importar el modelo de consumo o la ubicación elimina parte de la complejidad de este tipo diferente de escala masiva”, dice Bill Wagner, director ejecutivo de Bright Computing. “No miramos el borde de forma aislada porque no creemos que exista de forma aislada. Si piensa en lo que realmente está haciendo el borde, en última instancia, está sirviendo como un acelerador para el análisis de aprendizaje automático. Por lo tanto, el borde es un componente en un montón de arquitecturas para el centro de datos y fuera del centro de datos que convergen desde una perspectiva de infraestructura.

“Las organizaciones quieren abordar todas estas cosas de manera coherente y no tener enfoques aislados porque saben que van a necesitar, y tendrán, infraestructura en muchos más lugares de los que normalmente tienen en la actualidad. Avance rápido un par de años y las empresas tendrán una infraestructura híbrida local, en la nube y en el borde. Toda esta complejidad relacionada con la ubicación se está construyendo y la infraestructura se está extendiendo por todo el lugar. La complejidad se multiplica naturalmente al mismo tiempo, a medida que surgen nuevas aplicaciones y se implementan nuevas tecnologías (nuevos tipos de computación, almacenamiento, interconexiones y capas de abstracción como contenedores) «.

Recomendado:  Descenso de gradiente con impulso de Nesterov desde cero

Debido a que los problemas complejos generalmente requieren respuestas complejas, las organizaciones también deben tener en cuenta las nubes públicas e incorporarlas también. En algunos casos, la infraestructura en la nube se utilizará exactamente como un clúster de HPC local, construido a partir de servicios de computación, almacenamiento y redes en una de las principales nubes públicas de manera efímera o reservada, según las circunstancias.

En otros casos, dada la naturaleza distribuida de las nubes públicas más grandes, que tienen docenas de regiones y cientos de centros de datos, además de miles de otros puntos de presencia, AWS las llama ubicaciones de CloudFront Edge, Google Cloud las llama ubicaciones de Network Edge o puntos de red de entrega de contenido. de presencia (CDN POP), y Microsoft las llama Azure Edge Zones: la nube pública funcionará como ubicaciones de borde para las organizaciones.

La complejidad es solo un poco más, bueno, compleja incluso que esto. Las líneas entre lo que es un borde, lo que es un centro de datos y lo que está en el medio, y seguramente habrá puntos de presencia en el medio, se están difuminando. Y no se ha desarrollado un lenguaje común para describir esto con precisión.

Las diversas capas de borde son solo otro tipo de computación distribuida, donde las cargas de trabajo deben ejecutarse más cerca de la fuente de datos porque la latencia debe ser baja o porque los conjuntos de datos son demasiado grandes para ser transmitidos desde tantos sitios al centro de datos, o ambos. La escala va a explotar en muchas dimensiones diferentes, dentro de cada ubicación y en todas las ubicaciones. Es como una topología fractal. Pero es aún más extraño que eso. En algunos casos, la nube pública será su borde o uno de sus bordes. Todavía necesitarás administración. En otros casos, la nube pública será su centro de datos. Todavía necesito manejo. Sus nubes son tu borde. Todavía necesito manejo. Su filo es mi filo. Todavía necesito manejo. Esas nubes son su centro de datos. Todavía necesito manejo. Su centro de datos es su centro de datos y sus bordes son sus bordes. Todavía necesito manejo.

Habrá muchos tipos de bordes, pero la red inalámbrica 5G donde vivirán muchas aplicaciones es un buen ejemplo. Las aplicaciones que se ejecutan en estaciones base 5G se mejorarán con inferencia de aprendizaje automático y posiblemente capacitación en aprendizaje automático localizada para brindarnos servicios a todos a través de nuestros teléfonos inteligentes y tal vez nuestras computadoras portátiles y tabletas y auriculares de realidad virtual una vez que tengamos un ancho de banda alto, bajo, consistente, bastante barato. red de latencia en su lugar.

Recomendado:  Preguntas y respuestas: Desafíos globales en torno al despliegue de IA | Noticias del MIT

La ampliación de la escala en el borde será inmensa, razón por la cual lo llamamos computación hiperdistribuida aquí en La próxima plataforma, como vemos un complejo de cómputo, memoria y almacenamiento dentro de un servidor dentro de un rack, a lo largo de una fila, que abarca un centro de datos y se extiende a través de la inmensidad del borde hasta decenas de miles de millones y, finalmente, billones de dispositivos.

«El ejemplo de las telecomunicaciones es revelador», dice Wagner, recordando a todos que las longitudes de onda 4G pueden extenderse hasta 10 millas, pero las longitudes de onda 5G son de aproximadamente 1,000 pies, y la compensación que tenemos que pagar por tener 10 veces el ancho de banda pasando de 4G a 5G es tenemos muchas más antenas y torres de telefonía celular «. Con la transición de RAN a OpenRAN, las principales empresas de telecomunicaciones tienen alrededor de 170.000 sitios distribuidos en los Estados Unidos, y cada una de las principales empresas de telecomunicaciones tiene decenas de miles de torres de telefonía celular cada una. Pero con las redes 5G, se predice que la cantidad de sitios estará en el rango de 400,000 a 500,000, y esa puede resultar una estimación muy conservadora.

Lo difícil, en los primeros días de la computación hiperdistribuida con diferentes niveles de rigidez o holgura del acoplamiento en grupos de máquinas, es cerrar la brecha para las personas que todavía piensan en las ubicaciones de los bordes como mascotas y no como ganado. La infraestructura subyacente debe aprovisionarse y administrarse de manera coherente, ya sea que las máquinas estén acopladas de manera relativamente estrecha, como es el caso de los clústeres de simulación y modelado de HPC que utilizan la pila de interfaz de paso de mensajes (MPI) o el espacio de direcciones global particionado (PGAS) para juntar los nodos; o acoplar libremente, o es posible que no estén acoplados en absoluto, una colección de servidores web en un centro de datos, tal vez, o servidores OpenRAN alojados debajo de las estaciones base de la célula.

Recomendado:  Optimización del descenso de gradientes con Nadam desde cero

“Tiene que ser una infraestructura unificada para ayudar a hacer frente a la complejidad, y es mejor pensar en esto como agrupaciones de agrupaciones, con diversos grados de acoplamiento flexible y estrecho”, explica Wagner. “Al final, si las máquinas se comunican entre sí o no, realmente no importa tanto como la comprensión de que todas deben ser aprovisionadas y administradas. En cierto sentido, no hay nada especial en tener que gestionar muchos especial cosa o conjuntos de cosas una vez que tengas muchos de ellos. La escala y la diversidad es el problema «.

Debido al alto costo de la computación en la nube, a cierta escala y nivel de utilización, del que hemos hablado aquí en La próxima plataforma Recientemente, el costo se vuelve prohibitivo estar solo en una nube pública y se vuelve mucho menos costoso proporcionar infraestructura en una instalación que la empresa posee o al menos controla si alquilan su espacio de coubicación y usan hardware con precio de nube dentro de él. .

“Por eso el término ‘ventaja’ es tan limitante”, dice Wagner con cierta exasperación. “Sugiere que solo hay tres escenarios, y lo que queremos ayudar a las personas a hacer con Bright Cluster Manager es lograr que las personas vean que en algún momento la infraestructura debería ser simplemente líquida y que tenemos las herramientas que la ayudan a comportarse de esa manera sin importar dónde se obtiene, sin importar el precio y sin importar dónde se encuentre «.

Patrocinado por Bright Computing.