El ecosistema de big data se está expandiendo constantemente, gravitando cada vez más desde las cuatro paredes de la empresa centralizada tradicional con una creciente variedad de fuentes, servicios y sistemas externos.
Aprovechar este fenómeno requiere visibilidad horizontal de la importación de datos para casos de uso singulares, ya sea la creación de modelos predictivos, la adhesión a acuerdos regulatorios, la creación de vistas integrales de los clientes y más, en una variedad de plataformas, herramientas y técnicas.
La capacidad de aprovechar por sí sola a las organizaciones del valor colectivo de tales recursos descentralizados radica en los medios de estandarizar estos datos como si estuvieran todos en el mismo lugar, a pesar de la paradoja. Tener en cuenta las diferencias inevitables en el esquema, la terminología y las representaciones de datos requiere una uniformidad de modelado de datos en todos los entornos y fuentes por igual.
De no hacerlo, se prolonga el viaje interminable hacia los silos de datos, las sanciones regulatorias y el despilfarro de inversiones centradas en los datos.
En consecuencia, los esfuerzos de centralización que involucran «la malla de datos y la estructura de datos son algo que estamos viendo mucho por ahí», reflexionó la directora de datos y análisis de Alation, Julie Smith. «Debido a la malla de datos, la estructura de datos y todo el método de trabajo que implican, sus prácticas de modelado de datos se volverán increíblemente pragmáticas y tendrán que evolucionar».
Una plétora de métodos que incluyen estructuras de datos, capacidades renovadas de gestión de datos maestros nativos de la nube y marcos de gobernanza que emplean la computación cognitiva para señalar y hacer clic en las fuentes para catalogar detalladamente sus datos son medios viables para implementar modelos de datos en la heterogeneidad de las empresas modernas. datos.
Triunfar significa más que cumplir con los imperativos comerciales anteriores, pero en última instancia impulsa a las organizaciones cada vez más a la interoperabilidad sistémica para satisfacer cada caso de uso con los datos más apropiados, independientemente de la ubicación o la fuente.
Diferenciación de esquemas
El camino hacia la interoperabilidad de datos para casos de negocios que abarcan la amplitud de los activos de datos de las organizaciones generalmente implica alguna forma de centralización, como estructuras de datos o mallas de datos. “Las mallas de datos y las estructuras de datos son muy similares”, especificó Smith. «Ambos son enfoques en los que los datos se mueven a través de diferentes lugares en lugar de tratar de tenerlos en un solo lugar y reunirlos». No obstante, resolver las diferencias de esquema sigue siendo una dificultad tradicional de integrar o agregar fuentes de datos variadas para cualquier aplicación central. Sin embargo, los tejidos de datos implementados con virtualización de datos, federación de consultas y lo que el director ejecutivo de Stardog, Kendall Clark, denominó un «modelo de consulta de gráficos», hace que este impedimento se vuelva obsoleto de varias formas para ofrecer las ventajas posteriores:
- Esquema de tenencia múltiple: Debido a que los tejidos de datos permiten a las organizaciones dejar los datos en su lugar pero acceder a ellos como si estuvieran colocados, las empresas pueden seleccionar dinámicamente su esquema en el momento de la consulta. Los departamentos respectivos pueden utilizar diferentes esquemas y terminología para consultas individuales en lugar de «decidir una versión de la verdad y un esquema para estructurar estos datos», reveló Clark, lo que consume mucho tiempo y recursos.
- Representaciones precisas: El esquema de múltiples inquilinos produce mejores modelos de datos con descripciones más realistas y detalladas de los conceptos comerciales y su contexto. Crea “más flexibilidad y agilidad en todas las organizaciones”, estipuló Clark. «Puede representar con mayor precisión la complejidad del mundo sin batallas internas entre [business units] sobre el esquema «.
- Unificación de esquemas: Además, dado que el modelo de datos del gráfico de conocimiento del Marco de descripción de recursos (RDF) subyacente evoluciona naturalmente para incluir nuevos requisitos o fuentes comerciales, las empresas pueden crear esquemas entre departamentos o empresariales integrales para casos de uso que exigen dicha interoperabilidad. En este y otros casos, «los modelos de datos evolucionarán», reconoció Smith. «Por eso es necesario que la catalogación le diga dónde está, qué superposición puede haber y qué uso está ocurriendo».
Catalogación de datos
La evolución del modelo de datos implícita en el esquema de múltiples inquilinos y sus innumerables combinaciones se ve considerablemente ayudada por la catalogación de datos, que a su vez informa el proceso de descubrimiento de datos para diseñar modelos de datos interoperables con la información más significativa. Los catálogos actuales se basan en el aprendizaje automático para señalar las fuentes e ilustrar lo que Smith caracterizó como «la realidad actual: estos son los campos, las entidades, las relaciones, y así es como se utilizan». Esta comprensión básica es fundamental para iniciar el esquema, revisarlo y comprender las condiciones necesarias para combinarlos en casos de uso singulares. Según Martin Boyd, vicepresidente de marketing de productos de Profisee, las mejores prácticas de modelado de datos implican «observar todos los diferentes lugares donde existe el esquema para un dominio específico, y luego extraerlo para crear el esquema».
La catalogación de datos mejora este paso de varias maneras, la principal de las cuales es su medio de centralizar la información sobre los datos en fuentes distribuidas. Además de los metadatos valiosos, la información estadística derivada de la elaboración de perfiles de datos y la aportación de expertos en la materia, los catálogos también albergan el “conocimiento colectivo que cualquier número de usuarios adquirió en torno a un sistema o conjunto de datos”, mencionó Smith. También proporcionan linaje y otras anotaciones sobre cómo se utilizaron los conjuntos de datos y el esquema específico. En conjunto, esta documentación permite a los usuarios «mirar modelos de datos y dónde vamos a llevar algo», observó Smith. «Entonces, la información de este catálogo de datos puede contribuir a la evolución de ese modelo de datos».
Modelado de entidades
El modelado de entidades y la creación de modelos de datos maestros para dominios individuales fomenta el avance hacia las ventajas de interoperabilidad de los esquemas reutilizables, el conocimiento completo de las fuentes de análisis y una mayor adaptabilidad. La gestión de datos maestros de múltiples dominios juega un papel invaluable en el modelado de entidades mediante el uso de lógica difusa, computación cognitiva y otros enfoques para automatizar registros coincidentes de entidades y fusionarlos según sea necesario. Tal autómata es beneficioso para completar estas facetas de modelado de datos a escala porque este aspecto de la gestión de datos «es un proceso», señaló Boyd. «Una vez que ha establecido ese proceso y las reglas, el sistema sigue aplicándolas».
Como se mencionó anteriormente, la estandarización de la representación de los datos en las fuentes es un precursor de fusionarlos para casos de uso horizontales, especialmente cuando los resultados de esos modelos de entidad se devuelven a las fuentes. Una vez que los usuarios «estandarizan toda esa información desde una perspectiva de formato, eso la hace más interoperable», sostuvo Boyd. «Así que ahora diferentes sistemas que contienen datos en diferentes formatos pueden comunicarse entre sí, contribuir al modelo de datos maestros y compartir esa información con ellos». Posteriormente, se vuelve mucho más fácil utilizar una serie de fuentes distribuidas de este tipo para los intentos de ciencia de datos para construir modelos predictivos o para crear aplicaciones en departamentos, fuentes y dominios para cosas como programas de fidelización de clientes o análisis de seguridad.
Calidad de los datos
Las reglas de calidad de los datos para las fuentes que informan los diferentes aspectos del modelado de datos (como el modelado de entidades, el modelado lógico y el modelado conceptual) son fundamentales para proporcionar la estandarización en la base de cualquier intento de interoperabilidad. Una vez que las organizaciones disciernen qué fuentes tienen atributos o datos que impactan estas dimensiones de modelado, deben homogeneizar cómo aparecen en las fuentes para que “cada campo tenga reglas de calidad de datos que exijan cómo deben [appear]”, Donó Boyd.
A menudo, formular esas reglas para estandarizar los datos es un proceso cooperativo que involucra a expertos en la materia, personal de gobierno de datos y otras partes interesadas. El resultado es que los datos se estandarizan en todas las fuentes de acuerdo con «reglas de calidad de datos, reglas de coherencia, integridad referencial y todo lo que se espera de un diseño de base de datos normal», explicó Boyd. El beneficio final de atribuir la calidad de los datos a los fundamentos del modelado de datos es la garantía de calidad y «cuánto puede confiar en esa información y las diferentes fuentes de donde proviene», agregó Smith.
Posibilidades de interoperabilidad
Las posibilidades de hacer que los datos sean más interoperables mediante la combinación de modelos de datos o la elaboración de modelos unificados entre casos de uso, departamentos y dominios son importantes por una serie de razones. En primer lugar, permite a la empresa incorporar más de estos activos de datos lucrativos en las aplicaciones comerciales diarias para inflar el ROI en sus gastos sustanciales de gestión de datos mediante el uso de todos los recursos, o lo mejor de ellos, para implementaciones individuales. También es una forma confiable de domar lo que de otro modo es el desorden creciente que acompaña a la mayor descentralización de dónde se accede, almacena y requiere los datos, razón por la cual el principio de la estructura de datos ha persistido.
Esta metodología «conduce a la interoperabilidad y la interoperabilidad en la capa de datos», comentó Clark. “En la capa de datos hay un gran grupo, estructura o gráfico de datos. Eso no solo significa que vuelca los datos en una ubicación, sino que está conectado para que las aplicaciones sean más simples y fáciles de construir, puede reutilizar la lógica empresarial y puede reutilizar estas conexiones que se convierten en diferentes vistas de una estructura integral de datos.»
Modelando mañana hoy
Independientemente del enfoque de centralización que se implemente, las organizaciones deben adoptar algún método para contrarrestar los silos que de otro modo ocurrirían con la dispersión de datos en diferentes nubes, configuraciones locales y regiones geográficas. Prepararse para la interoperabilidad sistémica en el nivel granular del modelado de datos superando la diferenciación de esquemas con una catalogación de datos efectiva, un modelado de entidades y mecanismos de calidad de datos es nada menos que providencial para los desafíos que se avecinan.
«Hay dos formas de hacer la prueba del futuro: la astuta y la tonta», propuso Clark. “La primera es estar preparada para el futuro mediante la creación de modelos de datos que describan partes de su negocio más grande que soportan horas extras. La reutilización de esquemas en diferentes partes de la empresa le brinda beneficios a prueba de futuro con alta garantía de calidad y ROI. La forma tonta es que las personas inteligentes realicen modelos de datos por el mero hecho de modelar datos, lo que no conduce a ninguna parte «.
Sobre el Autor
Jelani Harper es una consultora editorial que presta servicios al mercado de la tecnología de la información. Se especializa en aplicaciones basadas en datos centradas en tecnologías semánticas, gobernanza de datos y análisis.
Únase a nosotros en Twitter: @ InsideBigData1 – https://twitter.com/InsideBigData1
Suscríbase al boletín gratuito insideBIGDATA.