En 2013, Judith Hurwitz y otros expertos del mercado proclamaron el comienzo de la era del Big Data. Percibieron que «los macrodatos permiten a las organizaciones almacenar, administrar y manipular grandes cantidades de datos a la velocidad adecuada y en el momento adecuado para obtener la información adecuada».
Fueron sinceros que Big Data no representa una sola tecnología y, en cambio, era un conjunto heterogéneo de tecnologías de gestión de datos con sus raíces en varias transformaciones tecnológicas anteriores.
La pregunta ahora es: ¿Dónde está Big Data hoy? ¿Y qué se necesita para madurar su aplicación?
Para ser justos, las encuestas de analistas recientes han encontrado que los macrodatos aún no han dado lugar a grandes resultados comerciales. A pesar de todo el bombo publicitario, la mayoría de los empleados corporativos todavía no tienen fácil acceso a la información para realizar su trabajo. El problema continúa centrado en hacer llegar la información correcta a las personas adecuadas en el momento adecuado a medida que aumenta el número de fuentes de información, usos y usuarios.
Almacenes de datos frente a lagos de datos frente a estructura de datos
Para albergar todos estos datos, han surgido sistemas de almacenamiento y gestión, como el almacén de datos, el lago de datos y la estructura de datos, «las organizaciones necesitarán alguna forma de los tres», dice el ex CIO. Tim McBreen. “Pero se requerirá un Data Fabric como un paraguas para toda la integración, administración y gobernanza de datos en toda la empresa en los niveles de solución y plataforma. La cohesión entre empresas es imprescindible «.
“A menudo no es factible centralizar los datos”, agrega el CIO Carrie Schumaker. “O, el análisis se crea un prototipo utilizando servicios para acceder a fuentes de datos dispares, y luego, si resulta fructífero y las necesidades comerciales lo dictan. La centralización se hace más tarde «.
Analista de Hurwitz Dan Kirsch ve una conexión entre la tendencia de descentralización de datos y el tejido de datos. “Hemos visto un enfoque de tejido de datos que crece en popularidad porque no es realista tener un repositorio central donde todos sus datos pueden estar actualizados, gobernados y limpios”, comparte. “Por esta razón, las estructuras de datos deben permitir ubicaciones de datos heterogéneas. Creo que un enfoque de estructura de datos ayuda con el desafío de la responsabilidad compartida: cada equipo es responsable de sus propios datos y luego los conecta en lugar de descargarlos en un lago de datos. AWS puede decir que un lago de datos es el único camino para el éxito de la analítica. Y, por supuesto, quieren que las organizaciones vuelquen todos sus datos en la nube de AWS «.
Ex vicepresidente de datos y análisis de Gartner, Nick Heudecker, está de acuerdo y sostiene que todas estas tendencias son importantes. “Cada concepto sirve a diferentes usuarios y casos de uso”, señala. “Almacenes de datos para análisis repetibles y de alto rendimiento. Data Lakes para el desarrollo / experimentación de preguntas. Malla de datos para el consumo de datos distribuidos con supervisión de la gobernanza «. Para que no haya confusión, Gartner considera que los lagos de datos y las mallas de datos son conceptos equivalentes.
Centralizar su estrategia de Big Data en una sola plataforma
Los expertos aprovechan las estrategias duales pero se adhieren a una sola plataforma. El ex CIO McBreen dice que le gusta tener “dos estrategias. Una estrategia es para producciones y otra para análisis. Cada uno tiene su propia plataforma central y soporte para múltiples repositorios de datos. Luego, hay una plataforma ETL (real, cercana, por lotes) entre los 2 núcleos centrales «.
Pero, ¿qué proveedor proporciona la mayor parte de estos servicios? “Todavía no he visto ninguno que crea que sea lo suficientemente bueno por sí solo como para ser la plataforma completa”, se lamenta McBreen.
Shumaker coincide cuando bromea: «¿Los repositorios de datos múltiples suelen incluir algunas hojas de cálculo?» Por esta razón, CIO Deb Gildersleeve dice, “en muchos sentidos se trata menos de centralizar datos y más de integrarlos. ¿Cómo puede integrar todos sus datos para poder visualizarlos y conectarlos a sus otros sistemas (ya sea en las instalaciones o en la nube)? «
“La centralización de todos sus datos genera dolores de cabeza en costos, gobernabilidad y seguridad”, comparte Kirsch. “Los datos están bloqueados en aplicaciones de línea de negocio, en las instalaciones y dentro de los ecosistemas de nube. Conectarse a los datos donde residen ayuda a eliminar el riesgo y aumentar la velocidad de la información «.
“No creo que esta sea la historia de una solución de un solo proveedor”, coincide Heudecker. “Algunos proporcionan capacidades de consulta, pero nadie todavía ha desarrollado la historia de la gobernanza. Lo ‘grande’ en big data hace que mover las cosas sea un desafío. Varias plataformas es la norma. Si tienes suerte, puedes normalizarte en torno a las herramientas y las habilidades «.
Un tejido de datos, por lo tanto, es un concepto de gestión de datos para lograr canalizaciones, servicios y semántica de integración de datos flexibles, reutilizables y aumentados, en apoyo de varios casos de uso operativos y analíticos entregados a través de múltiples implementaciones y plataformas de orquestación.
Garantizar el cumplimiento de las normas de privacidad y gobernanza de datos
Para gobernar los datos de manera eficaz, las empresas deben tener una idea clara de los datos que tienen. Las organizaciones deben «comprender qué tipos de datos hay en su lago de datos o estructura de datos», dice Kirsch. “Si la PII está involucrada en una aplicación específica o en un nuevo esfuerzo, las empresas deben asignar un ejecutivo para supervisar el uso apropiado de los datos personales. El ejecutivo también puede ayudar a abordar la cuestión de qué es posible con los datos en comparación con lo que es apropiado «.
Los delegados desempeñan un papel fundamental en la gobernanza. Por lo tanto, no sorprende que McBreen diga que es importante definir “administradores cuyo trabajo completo es acceder y administrar las correcciones a la información en su fuente inicial. Se rotan fuera de los equipos comerciales y los KPI están en su lugar. Revisamos mensualmente y ajustamos según sea necesario «.
«Es importante definir a los delegados desde el principio y saber cómo comunicarse con ellos a lo largo del camino», afirma Gildersleeve «. También es importante obtener los comentarios de los administradores sobre el diseño de UX. Shumaker agrega que le gusta que “los administradores de datos aprueben el diseño de alto nivel. Dependiendo del tipo de datos, existe una capacitación obligatoria sobre el acceso y el cumplimiento para obtener acceso a cualquier conjunto de datos, y para conjuntos de datos más especializados puede haber capacitación adicional «.
¿Impacto de la nube en la estrategia de Big Data?
“La nube se está convirtiendo en otra forma de computación y almacenamiento en lugar de un entorno separado”, insiste Kirsch. “La visibilidad y la gestión de la nube son importantes. Asumir que la nube es una forma rápida de gastar un presupuesto. En muchos casos, no hay razón para mover algunas aplicaciones a la nube. Poder hacer pruebas de conceptos y experimentación instantáneamente en la nube es enorme. Adquirir GPU, por ejemplo, en la nube frente a comprar infraestructura física.
Gildersleeve está de acuerdo y dice que «la nube permite a las organizaciones probar cosas nuevas, así como agregar y eliminar potencia informática según sea necesario sin tener que esperar a que se realice el trabajo físico».
¿Dónde están madurando los procesos de datos?
Los procesos requieren una base de términos claramente definidos. Para Gildersleeve, “comenzar en los sistemas transaccionales es fundamental. Si los datos comienzan mal, se dedica mucho tiempo a depurarlos y mejorarlos. Shumaker está de acuerdo y dice que «no es sexy, pero las organizaciones deben acordar las definiciones de datos que se comparten y se mantienen».
Por esta razón, Kirsch sugiere que es hora de “cambiar los procesos de datos adoptando procesos como DataOps. Estos serán importantes para las organizaciones basadas en datos. No será de la noche a la mañana. Las empresas todavía están luchando con DevOps. La alfabetización de datos también es fundamental para lograr el éxito. Los estudiantes de la escuela de negocios no deberían obtener su MBA sin una cierta comprensión de los datos «.
Heudecker no está en desacuerdo cuando dice, “se necesita la mayor madurez en áreas que facilitan compartir el contexto en torno a los datos, por lo que cosas como la alfabetización de datos. DataOps puede ayudar con la resiliencia, pero sigue siendo una práctica abrumadoramente técnica «.
Palabras de despedida
Claramente, Big Data se encuentra en lo que los analistas llaman el «canal de la desilusión». Si bien las empresas basadas en datos serán ganadoras a largo plazo, hay trabajo por hacer.
Los ganadores deben implementar la gobernanza de datos necesaria para que los datos sean suficientes para la tarea y estén protegidos. También necesitan mejorar sus procesos de datos. Juntos, DataOps y Data Governance pueden ayudar. Para hacer esto, los ganadores de datos crearán lo que Jeanne Ross y Martin Mocker denominan «Backbones operativos y digitales».