Catalogación de datos y visualización de datos: dos imperativos en las organizaciones actuales

Con la proliferación de datos, la catalogación se está convirtiendo en una necesidad para todas las grandes empresas. Una vez que ese sistema esté en su lugar, el uso de técnicas de visualización de datos que cuenten una historia puede traer grandes beneficios. Aquí, Priya Iragavarapu de AArete analiza los sistemas modernos de catalogación de datos y tres factores en el diseño de una buena visualización de datos.

Catalogación de datos: ya no es solo un «agradable tener»

A medida que el volumen y la variedad de datos crecen exponencialmente, también lo hace la importancia de los catálogos de datos y la visualización de datos. El crecimiento descontrolado de datos con atributos en evolución plantea un desafío importante: hace que la administración de metadatos sea cada vez más desafiante.

La gestión de datos empresariales se ve particularmente afectada por este exceso de datos. Con atributos de datos anidados complicados, es difícil para las partes interesadas tomar una instantánea de los datos, explorar los metadatos y luego crear un catálogo de datos o un glosario empresarial, reutilizándolo como referencia a perpetuidad.

Por lo tanto, la catalogación de datos no solo es un imperativo inevitable, sino que se requiere hacerlo en tiempo real, lo que hace posible que los conjuntos de datos rastreados identifiquen los metadatos. Estos catálogos de datos realizan dos tareas: documentar los metadatos con precisión y eficacia y marcar cualquier metadato anómalo para detectar discrepancias.

Otra razón por la que existe una mayor necesidad de catalogación de datos es la prevalencia de equipos híbridos de colaboración cruzada con conexiones de línea de puntos dentro de las organizaciones matriciales. Cada equipo a lo largo de todo el ciclo de vida de los datos necesita comprender los datos más allá de su alcance inmediato de experiencia para realizar su función de manera efectiva. Cuando la catalogación de datos se opera de esta manera, permite rastrear el linaje de datos para comprender cómo evoluciona y cambia el catálogo de datos con cada paso dentro de la canalización de datos.

Las organizaciones deben buscar soluciones de catalogación de datos con las siguientes características clave. En primer lugar, la solución de catalogación de datos debe ser capaz de rastrear datos automáticamente y detectar dinámicamente los atributos de datos, tipos de datos y perfiles de datos. Además, muchas soluciones líderes en la industria incorporan la entrada del usuario para crear un diccionario de datos o un glosario empresarial. Los programas deseables de catalogación de datos también pueden traducir estadísticas en imágenes fáciles de usar. Por último, una solución sólida de catálogo de datos no debe mostrar simplemente los metadatos, sino permitir que los usuarios realicen acciones a partir de esa información.

Sin embargo, existen ventajas y desventajas cuando se comparan capacidades de catálogo de datos aumentadas más nuevas con enfoques más tradicionales. El enfoque tradicional se refiere a la creación de un script personalizado para rastrear datos y escribir datos pertinentes a los metadatos en una tabla para su posterior análisis.

También es un proceso bastante manual para realizar un seguimiento de cuándo y con qué frecuencia ejecutar el script, lo que tiene la desventaja del procesamiento por lotes. Las soluciones personalizadas más sofisticadas consisten en rastreadores de datos de transmisión en tiempo real, que determinan los metadatos y detectan cualquier cambio en tiempo real. Este programa es ideal para muchas aplicaciones de baja latencia. Sin embargo, estas soluciones avanzadas de catalogación de datos conllevan preocupaciones con respecto a los recursos, la complejidad informática y el costo.

Los programas complejos también pueden representar un riesgo para la seguridad. Los sistemas que brindan la mayor oportunidad para el descubrimiento automatizado plantean la mayoría de las preocupaciones de los profesionales de TI operativos. Se les pide que permitan una brecha en su firewall para que una solución basada en la nube pueda obtener acceso o que instalen un nuevo sistema local.

Si estas preocupaciones disuaden a una organización de adoptar el enfoque moderno, existen muchos productos estándar que las organizaciones pueden aprovechar para soluciones de catalogación de datos. Estos pueden o pueden necesitar integrarse mejor, según la pila de tecnología y los sistemas heredados presentes dentro de la organización. Pero las organizaciones deben identificar dónde encajan en el espectro, desde la creación de una solución personalizada hasta el uso de un producto listo para usar. Todo depende de la naturaleza de los datos y de las necesidades de la organización.

Visualización de datos: debe contar una historia

Una vez que se ha elegido e implementado un sistema de catalogación de datos, las organizaciones deben descubrir cómo hacer el mejor uso posible de esos datos.

La tecnología de visualización de datos ha avanzado significativamente en la última década, produciendo software avanzado como Tableau, Power BI, Qlik, Looker e IBM Cognos. Las empresas tecnológicas modernas están ansiosas por incorporar la visualización de datos en sus prácticas, pero muchas tienen dificultades para elegir el programa que mejor se adapte a sus necesidades. Aquí hay varios aspectos que las organizaciones deben considerar antes de decidir qué datos

Tamaño y origen de los datos que se visualizarán

La primera consideración es el tamaño y la fuente de los datos. Estas cualidades afectan qué software es apropiado y si dos herramientas deben combinarse para satisfacer las necesidades de visualización de datos de la organización de manera adecuada. Por ejemplo, una empresa almacena sus datos en almacenamiento en frío, como S3, y este S3 está conectado directamente a Tableau. Incluso si Tableau proporciona ese conector, el rendimiento de la tarea de visualización se verá afectado. Tableau es una herramienta de visualización notable, pero si uno pone la responsabilidad de consultar en Tableau, afectará el rendimiento y las latencias. En este caso, Qlik es una herramienta mucho mejor, ya que tiene un motor de consultas incorporado, que ejecuta de manera eficiente una consulta en grandes conjuntos de datos y almacenamiento en frío. Nuevamente, esto no es una crítica de Tableau; simplemente significa que el usuario debe evaluar adecuadamente las fortalezas y debilidades de las herramientas de visualización y alinearlas con los objetivos de su organización.

Pila de tecnología de la organización

Otro factor es la pila de tecnología de la organización. Esto debe pensarse cuidadosamente antes de comprometerse con una herramienta de visualización de datos individual. Por ejemplo, es posible que una organización ya haya invertido en un ecosistema de Azure Cloud o IBM o en una pila de tecnología diferente de su elección. Un par de ejemplos: si una empresa utiliza el ecosistema de IBM, lo lógico sería utilizar IBM Cognos; o si la organización usaba Azure Cloud, Power BI sería la opción más inteligente. Las herramientas se pueden mezclar y combinar solo cuando no existe una estrategia unificada pertinente para una pila de tecnología de ventanilla única. En su mayor parte, la mayoría de las herramientas están construidas de tal manera que tienen conectores para mezclar y combinar con otras herramientas.

El alcance del preprocesamiento de datos necesario

El último factor a considerar es el preprocesamiento de datos. Idealmente, las consultas de visualización deberían consultar directamente los datos y poder filtrar, ordenar y agregar datos dentro de la herramienta. Si el preprocesamiento es complicado, supone una carga adicional para el programa de visualización de datos, lo que afecta al rendimiento. Por lo tanto, el trabajo de ingeniería de datos de preprocesamiento debe manejarse fuera de la herramienta. Una variedad de herramientas de preprocesamiento se corresponde con sus equivalentes de visualización de datos. Por ejemplo, Tableau usa Tableau Prep. Al considerar detenidamente el alcance de la preparación de datos requerida, el usuario puede predecir el rendimiento de la visualización de datos y el ritmo al que se visualizan los datos.

Además de las consideraciones anteriores, las organizaciones que eligen iniciativas de visualización de datos deben reconocer que las opciones de color, tipo de gráfico y tipo de visualización determinan el impacto que la visualización de datos tendrá en su negocio. Las soluciones de visualización de datos más eficaces combinan el arte con la ciencia.

Lo que es más importante, el software sólido de visualización de datos no solo genera diagramas de dispersión, mapas de calor, gráficos circulares o gráficos de barras:cuenta una historia. Los líderes de la industria confían en estas herramientas porque pueden crear arcos narrativos sin sacrificar la capacidad de experimentar con varios enfoques. A medida que avanza la tecnología de visualización de datos, estas tendencias se harán cada vez más evidentes, lo que hará que las empresas líderes utilicen herramientas de visualización para desarrollar de manera eficiente productos de datos cada vez más en línea con la demanda de los consumidores.

Con la proliferación de datos vienen los beneficios potenciales y una gran responsabilidad para las organizaciones. Para ser más efectivos, necesitan sistemas que comprendan lo que tienen, se aseguren de que los datos estén actualizados y sean recuperables, y conviertan los datos en visualizaciones que ayuden a contar una historia. Existen muchas herramientas que, si se usan con prudencia, pueden ayudar a las organizaciones a lograr todos estos objetivos: necesitan saber qué usar y cómo usarlas.

¿Qué tan actualizadas están la visualización de datos y la catalogación de datos de su organización? Háganos saber en Facebook, Gorjeoy LinkedIn.

Catalogación de datos: ya no es solo un «agradable tener»

Visualización de datos: debe contar una historia

Tamaño y origen de los datos que se visualizarán

Pila de tecnología de la organización

El alcance del preprocesamiento de datos necesario

MÁS SOBRE VISUALIZACIÓN DE DATOS