De petabytes a zettabytes: desafíos operativos de la infraestructura de clústeres

Un nuevo futuro digital está tomando forma, uno en el que, pronto, la mayoría de los datos nuevos se distribuirán y procesarán en el borde, fuera de los centros de datos en la nube. IDC informa que la esfera de datos global, la cantidad de datos creados y consumidos en el mundo cada año, crecerá de 45 zettabytes (ZB) en 2019 a 175 ZB para 2025. almacenados fuera de la nube pública.

El almacenamiento de esa enorme cantidad de datos y las operaciones y el procesamiento asociados requerirá más infraestructura a través del borde o las nubes privadas y continuará durante los próximos años. Esta nueva infraestructura se verá muy diferente de la infraestructura de nube pública que consiste en relativamente pocos pero inmensos centros de datos llenos de interminables filas de equipos. En cambio, la infraestructura física del centro de datos se está extendiendo a través de sitios más pequeños y distribuidos, convenientemente ubicados tan cerca como lo permite la economía de las fuentes de datos, complementando el núcleo centralizado existente.

«A medida que avanzamos hacia un nuevo mundo de infraestructura distribuida en esta nueva generación de Zettabyte», dice Jarrett Appleby, CEO de Appleby Strategy Group, una empresa de asesoría global, «las organizaciones deben planificar cómo ser más modernas y ágiles mientras estructuran sus entornos y distribuyen infraestructura para manejar nuevas aplicaciones que recopilan y analizan datos en tiempo real «.

La infraestructura y la forma en que se gestionará están experimentando una metamorfosis debido a varios factores clave.

La nube pública siempre ha subido el listón de todas las TI

A medida que más y más empresas adoptan servicios basados en la nube, las expectativas de soporte operativo y capacidades se están alineando con lo que están experimentando con los proveedores de nube pública global, que se brindan a través de enormes equipos de operaciones y presupuestos aparentemente ilimitados. Esto está creando una brecha operativa cada vez mayor entre sus expectativas comerciales y lo que pueden lograr utilizando sus propios recursos y presupuestos o los de sus proveedores de servicios administrados.

La expectativa es que las pilas de tecnología modernas y actualizadas sean omnipresentes. La entrega de esto recae en los equipos de operaciones, que necesitan las herramientas adecuadas para automatizar y orquestar los recursos y los entornos. Hay mucho que hacer para ponerse al día: es un compromiso importante en cuanto a tiempo y recursos.

Generación de datos fuera de la nube

A medida que las organizaciones atraviesan sus viajes de transformación digital, buscan información sobre sus procesos y flujos de trabajo clave y, como resultado, los datos en todas partes están explotando. Sin embargo, en la actualidad, menos del 10 por ciento de los datos se crean fuera del centro de datos o la nube. Para 2022, Gartner predice que esta cifra se disparará a más del 50 por ciento y al 75 por ciento para 2025.

Las organizaciones que operan en el mundo real, incluido el comercio minorista de ladrillo y mortero, la fabricación, el transporte, la energía, la atención médica y más, están implementando la infraestructura para medir, recopilar y analizar sus datos para comprender y mejorar su desempeño.

Estos datos no solo deben analizarse, sino que también se utilizan para crear ciclos de retroalimentación ajustados para la mejora continua. Esto resultará en la necesidad de ciclos de retroalimentación cada vez más rápidos para responder a las condiciones cambiantes.

La gravedad de los datos está impulsando Repartido Infraestructura

A medida que se generan más datos, es necesario agregarlos y procesarlos para extraer valor y obtener conocimientos. Con la creciente prevalencia de la inteligencia artificial y el aprendizaje automático, las organizaciones también incorporarán datos históricos existentes; cuanto más, mejor. Todo esto da como resultado focos de gravedad de datos, que se manifiestan en ubicaciones de almacenamiento distribuidas.

Por lo tanto, un clúster de almacenamiento con gravedad de datos atrae un número cada vez mayor de aplicaciones asociadas, que se manifiestan en clústeres informáticos. Es más fácil y rentable agregar el clúster de cómputo en lugar de continuar moviendo datos a otra parte.

“Históricamente, las ubicaciones centradas en la red y solo en la red están evolucionando para albergar cada vez más una infraestructura de almacenamiento y computación”, dice Sean Iraca, fundador y director de Double Time Consulting. «Como resultado, el futuro de la nube, pública y privada, se distribuye y trae consigo nuevos desafíos operativos que aún no se han abordado de manera efectiva».

Los operadores han hecho un trabajo fenomenal al construir redes distribuidas de alta capacidad en todo el mundo. A medida que la economía óptica y del silicio continúa reduciendo la huella efectiva de las redes, estas ubicaciones de redes son una opción natural para implementar la infraestructura de almacenamiento y computación adicional, transformando de manera efectiva las redes distribuidas para convertirlas en ubicaciones de redes, almacenamiento y computación distribuidas.

Si bien las implementaciones de computación de borde 5G son un ejemplo de esto, otras áreas del ecosistema también se están ajustando a esta realidad. Los centros de datos no crecen en árboles, y la proliferación de nuevas soluciones de centro de datos de borde (MEC) multiservicio centradas en ampliar las instalaciones más allá del núcleo centralizado está bien documentada. Los operadores de centros de datos como Equinix, que históricamente se centraron en proporcionar espacio, energía e interconexión, han disfrutado de un momento increíblemente exitoso y han comenzado a ofrecer servicios informáticos.

Las ubicaciones de solo red evolucionarán para albergar cada vez más infraestructura de almacenamiento y computación. Como resultado, el futuro de la nube, pública o privada, se distribuirá y traerá consigo nuevos desafíos operativos que aún no se han abordado de manera efectiva.

Desafíos de orquestación para operar infraestructura distribuida a escala

A diferencia del caso en la nube pública central centralizada, donde muchas aplicaciones son relativamente estáticas en pocas ubicaciones y los recursos son abundantes, el desafío para la industria gira en torno a cómo administrar y orquestar de manera más dinámica los recursos en muchos sitios con recursos que son escasos.

¿Cómo preparamos todos los elementos de una carga de trabajo de clúster? Esto implica coordinar los recursos físicos: los servidores, el almacenamiento y la red, junto con toda la infraestructura relacionada con el software, para un entorno similar a la nube en una ubicación. Entonces, ¿cómo hacemos lo mismo en otras 100 ubicaciones?

Dominar la infraestructura fundamental

Los cimientos de la infraestructura son la infraestructura de hardware y software de clúster necesaria que proporciona los recursos y servicios de los que dependen las aplicaciones. Durante la era de la nube, las ganancias tecnológicas resultantes se aceleraron a medida que las organizaciones se embarcaban en sus viajes de transformación digital. Esto se complica aún más como resultado de que estos entornos se distribuyen en múltiples ubicaciones.

El primer paso para gestionar esto de manera ágil es comprender los activos en sí. La infraestructura cambia inevitablemente con el tiempo debido a las actualizaciones de software y actualizaciones que pueden ser un desafío para mantenerse al día. Las aplicaciones tienen su propia cadencia de lanzamiento con su propia compatibilidad potencial de hardware y software. Gestionar esta complejidad ya no es algo que se pueda gestionar en una hoja de cálculo.

Una vez que se puede comprender con precisión la infraestructura fundamental, el siguiente paso es codificar la implementación y la administración de la infraestructura de software adecuada. La estratificación de la infraestructura de software continúa creciendo; hemos visto el aumento de los microservicios y todo lo definido por software, todo lo cual agrega sus propios conjuntos de requisitos de servicio que deben cumplirse. La gestión de las opciones de configuración de una aplicación a través de permutaciones a través de capas conduce a una combinación vertiginosa que hace que la implementación, la gestión y la resolución de problemas sean una tarea ardua que ralentiza a todos.

Demasiados copos de nieve

Las operaciones se consideran un gasto que debe equilibrar la administración de costos mientras se logran los niveles de servicio de la aplicación requeridos. Con la mayoría de las organizaciones bajo estrictas restricciones presupuestarias, deben considerar cómo hacer de manera significativa más con menos. Esto puede llevar a reevaluar el status quo actual.

Históricamente, las tecnologías de redes, servidores y almacenamiento han requerido cada una de ellas una atención centrada de forma única durante décadas. Esta evolución independiente ha dado como resultado habilidades específicas de silos y complejidad entre silos. Compare eso con las operaciones en entornos de hiperescala; Los operadores de la nube han estandarizado implacablemente equipos, protocolos, pilas y herramientas para limitar la cantidad de elementos que deben dominarse.

Para entornos altamente centralizados, monolíticos y de hiperescala, los beneficios de las economías de escala han permitido invertir miles de millones y pensar de forma innovadora, incluida la implementación de sus propias versiones personalizadas de lo anterior, y ofrecer operaciones de vanguardia. todo reflejado en el precio del servicio. Pocas organizaciones pueden permitirse realizar inversiones de ese tamaño.

Debido a que la infraestructura de cada empresa es única, el conjunto de herramientas necesario para respaldarla también es único. Esto requiere una inversión considerable por parte de las empresas y plantea desafíos propios para los ejecutivos y equipos de TI encargados de desarrollar y mantener estos sistemas.

Centrarse en la innovación y no en las frustraciones de los grupos

Si bien los desafíos de la infraestructura son amplios y amplios, la fuerza impulsora detrás de las operaciones de infraestructura y las decisiones de administración se basará en un cóctel complejo de acceso a datos, administración de clústeres inteligente y basada en valores y acceso al talento y la experiencia adecuados para hacer posible la infraestructura distribuida.

Cuando las empresas alcanzan una escala en la que la nube pública ya no es rentable, necesitan hacer la transición a soluciones modernas de infraestructura como servicio (IaaS) y almacenamiento como servicio (SaaS) que simplifican drásticamente la configuración y gestión de la compleja infraestructura necesaria para ejecute las aplicaciones modernas de hoy en nubes privadas.

Estas soluciones pueden ayudar a las organizaciones a mantenerse al tanto de los problemas de datos complejos con soluciones que automatizan el aprovisionamiento de infraestructura y la gestión del ciclo de vida de los recursos en la nube. Las organizaciones ahora pueden implementar y administrar nuevos sistemas de archivo activos a escala, los editores de software están simplificando las implementaciones de los clientes locales y los desarrolladores pueden enfocarse en el desarrollo y la innovación de aplicaciones en lugar de los esfuerzos operativos para administrar los clústeres.

Sobre el Autor

Mark Yin es el director ejecutivo de Platina Systems, el primero en proporcionar una automatización sólida y lista para usar del aprovisionamiento de infraestructura y la gestión del ciclo de vida de los recursos en la nube que abarca desde los recursos básicos hasta los clústeres de Kubernetes. Mark inició Platina Systems en 2014 y ha centrado su trabajo en optimizar el aprovisionamiento y la operación de la infraestructura, y en proporcionar una pila de software de operaciones en la nube fundamental para cualquier servicio (por ejemplo, IaaS, PaaS o SaaS) sobre una infraestructura inmutable.

Suscríbase al boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: @ InsideBigData1 – https://twitter.com/InsideBigData1