Saltar al contenido

Comprender la pila de datos moderna

16 de enero de 2022

El poder de los datos ya no está en disputa, y algunos incluso señalan cómo los datos impulsan la disrupción en la economía digital actual. Desde el análisis predictivo avanzado hasta la identificación de clientes rentables, las empresas están recurriendo a decisiones basadas en datos para adelantarse a sus competidores.

Pero aprovechar los datos con éxito va más allá de contratar a un científico de datos o convencer a un par de empleados para que se inscriban en algunos cursos de ciencia de datos.

Después de todo, incluso un chef talentoso estaría en apuros para preparar comidas fantásticas, día tras día, sin una cocina adecuada con los ingredientes correctos y equipada adecuadamente con utensilios de cocina. Del mismo modo, las organizaciones no pueden esperar avanzar en su negocio y aprovechar el poder de los datos a escala sin implementar primero los sistemas y capacidades necesarios.

La pila de datos moderna

El camino a seguir es implementar una pila de datos, un término que se origina en «pila de tecnología» o pila de tecnología. La pila de tecnología denota el conjunto de conjuntos de tecnología y software que impulsa los sistemas digitales de una organización; La pila de datos hace lo mismo con los datos.

Pero en contraste con el amplio mandato de las pilas tecnológicas genéricas, la pila de datos se centra en una gama relativamente estrecha de tareas centradas en datos. Esto generalmente incluye canalizar datos a la organización, manipularlos, analizarlos y transformarlos en información procesable.

Si bien la descripción de una pila de datos moderna diferirá invariablemente según a quién le pregunte, existe un consenso cada vez mayor sobre sus características principales. Para empezar, cada vez está más claro que el futuro de la pila de datos está en la nube.

Recomendado:  Algoritmo clasificador de vecinos de radio con pitón

A diferencia de un almacén de datos local donde los datos están compartimentados y son de difícil acceso, un almacén de datos en la nube tiende a ser más flexible y ofrece una mayor facilidad de acceso de autoservicio. El rendimiento también puede ser superior, mientras que el almacenamiento flexible y la elasticidad pueden reducir potencialmente los costos.

De hecho, algunos de los nombres más importantes en el almacenamiento de datos, como Snowflake y Databricks, están en la nube.

Donde antes las empresas se veían obligadas a elegir entre soluciones monolíticas que intentaban hacerlo todo, la industria se inclina cada vez más hacia el software modular e intercambiable. Las empresas ahora pueden optar por las mejores soluciones para personalizar su pila de datos para las capacidades precisas que necesitan.

Finalmente, no se distraiga con el brillo de los análisis avanzados o la tecnología de IA. Hablando sobre el estado actual de las plataformas de datos, Bob Muglia, ex director ejecutivo de Snowflake, habló de un futuro cercano en el que los sistemas analíticos se fusionarán con las plataformas de datos y aludió a cómo SQL seguirá desempeñando un papel crucial, por ahora.

“Creo que verá sistemas analíticos fusionándose con las plataformas de datos… Verá una pila muy completa que tendrá tanto análisis como análisis avanzado y sistemas de aprendizaje automático, junto con sistemas de gestión de datos basados ​​en SQL”, dijo Muglia.

Avanzando hacia el futuro

A medida que avanzamos hacia el futuro, espere que las canalizaciones de datos también evolucionen. Tradicionalmente, las organizaciones dependían de un proceso ETL para extraer, transformar y cargar nuevos datos en las bases de datos, lo que realiza un pequeño equipo de especialistas en datos. A medida que aumenta la cantidad de usuarios que incursionan en los datos, el volumen de trabajo ahora supera lo que un equipo pequeño puede lograr.

Recomendado:  La CPSC se adentra en la inteligencia artificial: protección del consumidor

Por lo tanto, tiene sentido un proceso ELT, lo que implica cargar datos en almacenes de datos primero y permitir que los usuarios comerciales los transformen ellos mismos. Además de ser más eficiente, otras ventajas incluyen un menor tiempo de acceso, una mejor usabilidad y mejores resultados a medida que los usuarios empresariales se apropian de la lógica empresarial.

Como puede imaginar, esto hace que la democratización de los datos y el análisis de autoservicio sean más vitales que nunca. Cuando se implementa por completo, es un cambio de juego donde los usuarios pueden hacer libremente nuevas preguntas sobre sus datos y obtener las respuestas rápidamente, si no de inmediato.

En última instancia, vale la pena señalar que la pila de datos moderna en sí misma es relativamente incipiente. Para las organizaciones que ya están embarcadas en este viaje, significa que hay amplias oportunidades para resolver aún más problemas o mejorar las soluciones existentes a través del poder de los datos.

Y para aquellos que solo se están mojando los dedos de los pies, bueno, no se preocupen. Todavía no es demasiado tarde, si comienzan hoy.

Paul Mah es el editor de DSAITrends. Ex administrador de sistemas, programador y profesor de TI, disfruta escribiendo código y prosa. Puedes localizarlo en [email protected].​

Crédito de la imagen: iStockphoto/thesomegirl