Saltar al contenido

Lleve sus análisis a Hyperdrive en 2021

13 de marzo de 2021

En 2012, Geoffrey Moore tuiteó: «Sin el análisis de big data, las empresas son ciegas y
sordo, deambulando por la Web como ciervos en una autopista «. [1]

Avance rápido una década y sucedieron muchas cosas en la década de 2010 para ofrecer imágenes y sonidos. La industria del almacenamiento aportó innovación para resolver el desafío de petabyte + datos, el ecosistema de software / kits de herramientas de análisis maduró rápidamente y los fabricantes de chips entregaron computación acelerada para obtener información de los tesoros de datos en constante crecimiento.

Pero la búsqueda de mejores conocimientos nunca termina. De hecho, el volumen de datos en constante aumento nos obliga a llevar la analítica a un hiperimpulso. Para que la empresa siga siendo competitiva en 2021, debe seguir innovando. A continuación, describo cuatro tendencias de análisis de big data que estoy viendo, junto con algunas características de solución sugeridas que debe buscar.

  1. Apache Spark seguirá dominando el mundo del big data

El científico de datos clásico es conocido como un rudo; entréguele el software Apache Spark con un cuaderno Jupyter y salga de su camino. Apache Spark, un motor de análisis unificado para el procesamiento de datos a gran escala, es ahora el Kleenex del análisis de big data y la ingeniería de datos. Es omnipresente: las universidades ofrecen clases para ello, cada implementación de Hadoop lo está aprovechando, el nuevo operador de Spark 3 trae capacidades nativas de GPU más integración S3. Todos deben prepararse para el tsunami Spark.

Sin embargo, una buena cantidad de thrash en este espacio genera confusión. Los principales proveedores están obligando a las empresas a cambiar a la nube y volcar Hadoop Sistema de archivos (HDFS) para almacenamiento de objetos. Y están surgiendo un montón de otras soluciones dedicadas para ofrecer soluciones Spark diseñadas.

El verdadero desafío es descubrir cómo pasar fácilmente de Spark en la tecnología YARN a la próxima generación de Spark en una implementación de Kubernetes, sin grandes interrupciones en el entorno existente. Las empresas también deben tener en cuenta que Spark es solo una de las muchas aplicaciones que necesitan para respaldar su canal de análisis.

¿Qué buscar? El objetivo es una solución que mejore simultáneamente la eficiencia, la agilidad y la elasticidad al tiempo que reduce los costos y mejora las capacidades de explotación de datos. Idealmente, esta solución permitirá a los científicos de datos acceder a los almacenes de datos existentes sin tener que trasladarse a la nube o cambiar la plataforma de los datos. En el frente de las aplicaciones, las empresas buscarán evitar el bloqueo de proveedores con soporte de Kubernetes de código abierto y múltiples versiones. sin que dependencias en Hadoop o HILO.

  1. Modernización de aplicaciones con estado
Recomendado:  Cómo la analítica acelerada puede mejorar el reabastecimiento y la experiencia del consumidor

La modernización de las aplicaciones aún está al rojo vivo y, por lo general, las mentes de las personas van directamente a las aplicaciones nativas de microservicios en la nube. Pero durante los últimos 18 meses, he visto un cambio radical en el código abierto, los ISV e incluso el espacio de proveedores de análisis monolítico (piense en Splunk, Cloudera y SAS). Las empresas ahora eligen adoptar la modernización de sus aplicaciones para implementarlas a través de una infraestructura nativa de contenedores. Estas cargas de trabajo tradicionalmente con estado y centradas en datos buscan convertirse en más como una nube mejorando la eficiencia de las implementaciones a escala y obteniendo la elasticidad y agilidad necesarias para implementar en cualquier lugar, en minutos.

El desafío es encontrar el hogar moderno adecuado para estas aplicaciones con estado. La ciencia de datos y la analítica son un deporte de equipo, por lo que estas aplicaciones necesitarán compartir datos y modelos, mientras orquestan las transferencias a lo largo del ciclo de vida de las analíticas.

¿Qué buscar? Las empresas van a necesitar rápidamente personal que pueda hacer más que simplemente deletrear Kubernetes, pero hay respuestas «sin codificación» para este problema. Deberán buscar aprovechar una plataforma de contenedores que pueda admitir (y con suerte esté validada) todas estas aplicaciones y pueda entregar datos a escala de petabytes. Las empresas también deberán asegurarse de que su solución se base en Kubernetes de código abierto con capacidades probadas de nube híbrida para que puedan mover rápidamente estas cargas de trabajo entre la nube pública y la local.

  1. Solución para el desarrollo de aplicaciones y las cargas de trabajo con uso intensivo de datos

Cuando voy de campamento, mi navaja suiza siempre está en mi cinturón, pero como dice el adagio, una jack of all trades es un maestro de ninguno. Por lo tanto, también llevo un martillo y un hacha para cuando surja la necesidad especial. Estoy notando lo mismo en las ofertas de contenedores. Es posible que ya haya invertido en una tecnología que es particularmente buena desde la perspectiva del desarrollador de aplicaciones y ahora está tratando de extender esa herramienta a nuevos espacios.

Recomendado:  El mercado de persianas de parrilla activa para automóviles probablemente alcanzará una valoración multimillonaria para 2030

El desafío es que todos queremos minimizar los proveedores de soluciones, por lo que creemos con optimismo en nuestros proveedores cuando abogan por que usemos sus herramientas para cosas para las que no están diseñadas de forma nativa. Las aplicaciones con estado son una bestia diferente: ejecutar análisis de escala de petabytes es muy diferente de ejecutar búsqueda web de microservicios. La escala de cientos o miles de clústeres y / o hosts por clúster tiene requisitos fundamentalmente diferentes.

¿Qué buscar? Usa la herramienta correcta para el trabajo correcto. No tema la coexistencia de múltiples plataformas para complementar sus soluciones existentes y abordar sus variados casos de uso para lidiar con problemas de escala, rendimiento y gravedad de los datos. Por el lado de los datos, los controladores CSI validados son un gran comienzo, pero es posible que necesite un almacén de datos escalable de alto rendimiento dedicado o integrado.

  1. La ventaja está aquí, y necesita resolver tanto los datos como la seguridad

Hemos estado leyendo sobre los miles de millones de dispositivos de borde y las tendencias de IoT durante años, y estoy viendo más soluciones que realmente han operacionalizado el análisis de datos desde el borde hasta la nube. En su forma más simple, las organizaciones están conectando su centro de datos con la nube pública, otras han reunido decenas de ubicaciones geográficas y otras pueden recopilar datos de millones de dispositivos de transmisión, incluso en órbita. Siguiendo esta tendencia, los análisis se vuelven cada vez más automatizados y distribuidos a medida que avanzan hacia los puntos de borde de la creación de datos. Esto crea una matriz compleja de análisis bordes que en sí mismos están compuestos por cargas de trabajo interconectadas que van y vienen, interactuando entre sí por limitaciones físicas y lógicas … al igual que las interacciones web de hoy.

Las empresas se enfrentan a dos desafíos inherentes a la analítica perimetral. En primer lugar, ¿cómo las organizaciones reúnen sin problemas los datos de los distintos bordes, múltiples nubes y locales, al mismo tiempo que brindan una vista única y sin silos de todos los datos? En segundo lugar, ¿cómo liberan las empresas la analítica para explotar los datos a través de una matriz segura que no tiene una identidad intrínseca atestiguada?

¿Qué buscar?

Datos: una solución que puede ofrecer una estructura de datos común para todos los datos de la empresa a escala global significa un tiempo de generación de valor más rápido, una mejor gobernanza y un menor costo. Busque plataformas de datos con una escala de petabytes probada, un conjunto de funciones empresariales reforzadas y capacidades comprobadas (como un espacio de nombres global y organización automática de datos en niveles) para entregar datos desde el borde hasta la nube.

Recomendado:  Por qué la seguridad y la privacidad de los datos pueden convertirse en una oportunidad ESG clave

Seguridad: una solución que puede generar confianza en el panorama fluido e interconectado de datos. Las estrategias de ayer para desarrollar la confianza entre las cargas de trabajo, como la gestión de secretos basada en el perímetro, son solo una curita que funciona a corto plazo pero que no escalará. Esta estrategia dejará a la empresa vulnerable a los ataques al estado de la aplicación que se extiende más allá de las cuatro paredes del centro de datos. En cambio, las empresas deben buscar tecnologías que puedan emplear la seguridad Zero Trust para desbloquear completamente sus análisis durante la próxima década.

Lleve la analítica al hiperimpulso en la década de 2020

Los datos seguirán siendo nada sin conocimientos. Las empresas no pueden quedarse quietas: mirarán a la década de 2020 como la década para llevar sus análisis al hiperimpulso.

Si desea obtener más información sobre este tema, únase a mí en el próximo evento de HPE: HPE Ezmeral \ Analytics Unleashed. Hablaremos con analistas, realizaremos demostraciones en vivo y discutiremos el viaje analítico con tres de nuestros clientes que han entregado soluciones que van desde un programa de billetera virtual, unidad robótica para ADAS (sistemas avanzados de asistencia al conductor) y ciencia de datos como: un servicio.

[1] @geoffreyamoore. Twitter, 12 de agosto de 2012, 7:29 p.m., https://twitter.com/geoffreyamoore/status/234839087566163968?s=20

____________________________________

Acerca de Matthew Hausmann

matt
La pasión de Matt es descubrir cómo aprovechar los datos, la analítica y la tecnología para ofrecer soluciones transformadoras que mejoren los resultados comerciales. Durante las últimas décadas, ha trabajado para empresas emergentes innovadoras y gigantes de la tecnología de la información con funciones que abarcan consultoría de análisis de negocios, marketing de productos e ingeniería de aplicaciones. Matt ha tenido el privilegio de colaborar con cientos de empresas y expertos en formas de mejorar constantemente la forma en que convertimos los datos en conocimientos.

Copyright © 2021 IDG Communications, Inc.