Saltar al contenido

Superar los problemas de la gestión de datos descentralizada con la virtualización de datos

11 de junio de 2021

Quizás la única certeza en el frágil clima empresarial actual es que, independientemente de lo que suceda mañana, el floreciente panorama de datos continuará su marcha hacia una descentralización cada vez mayor.

El crecimiento inexplorado de la nube, la computación perimetral, el Internet de las cosas y el paradigma del trabajo remoto lo revelan fácilmente.

Aunque estos desarrollos son fabulosos para las colaboraciones distribuidas y una visión consumada de los clientes al tiempo que reducen la latencia de la información para la toma de decisiones inteligente, tienen ramificaciones muy reales para los fundamentos de la gestión de datos, y no todas son tan optimistas.

Para muchos casos de uso pragmáticos (como simplemente consultar datos, realizar el descubrimiento de datos y diseñar datos para el consumo de aplicaciones o análisis), la creciente distribución del panorama de datos simplemente refuerza la necesidad de centralización. La mayoría de las organizaciones responden replicando datos entre ubicaciones que, aunque proporcionan cierta viabilidad a corto plazo, no son realmente sostenibles.

«No podemos simplemente seguir moviendo y copiando datos para administrarlos», advirtió el director ejecutivo de Stardog, Kendall Clark. «Hay un punto final en el que eso ya no funciona y, en general, estamos más cerca de ese punto de lo que la gente cree».

La virtualización de datos ha surgido como una alternativa confiable a la replicación interminable de datos y a incurrir en los problemas que produce este método. Cuando se implementa correctamente con modelos de datos modernos, crea dos beneficios que resuelven el enigma de ‘centralizar’ los datos descentralizados al permitir a los usuarios «dejar los datos dentro de las fuentes de datos existentes y realizar todas estas consultas complejas donde los datos viven, en las instalaciones o en el nube ”, afirmó Clark.

Por lo tanto, sin que los datos se muevan nunca, las organizaciones pueden acceder a ellos de manera centralizada para obtener una serie de ganancias en la calidad de los datos, la integración de datos y otros pilares de la gestión de datos.

Recomendado:  Análisis FODA del mercado de software de Big Data 2021, panorama competitivo y crecimiento significativo

Calidad de los datos

Una de las principales razones por las que copiar datos constantemente es insostenible es el impacto nocivo de esta práctica en la calidad de los datos. La replicación de datos entre ubicaciones puede reforzar los silos de datos y plantear preguntas sobre qué versiones son correctas, lo que inevitablemente ocurre después de manipular datos en diferentes lugares. En este caso, el caso de uso particular determina los ‘estándares’ de calidad de los datos, que no siempre son confiables cuando se usan esos datos para más de una aplicación o más de una vez.

“La copia de datos o el movimiento de datos que me preocupa es cuando hacemos copias y todos pueden ver las diferentes copias”, comentó Clark. “No todos, pero cuando son visibles para la organización. Eso trae problemas como cuál es el actual, cuál estamos actualizando? Causa confusión «. Esta situación se mejora fácilmente con la capa de abstracción que proporciona la virtualización de datos, en la que los datos permanecen donde están, pero se accede a ellos a través de una plataforma centralizada. Con el otro enfoque, las empresas se arriesgan a «datos actualizados, vigencia de los datos, obsolescencia de los datos y problemas de actualización de los datos», indicó Clark.

Esquema

Otra distinción fundamental de las tecnologías de virtualización es que los datos, como se describen en los modelos de datos, se liberan de manera efectiva de su capa de almacenamiento. Esto respalda los beneficios de la gestión de datos, como el esquema reutilizable para modelar datos para una variedad de casos de uso, en lugar de vincular los modelos de datos a aplicaciones específicas.

Tal reutilización es ventajosa para acelerar aspectos de la preparación de datos y disminuir el tiempo de acción para los procesos basados ​​en datos. “En este sentido, lo que impulsa la capacidad de virtualización desde el punto de vista del usuario es el mismo significado de nivel empresarial y modelado de datos de contexto”, observó Clark. Esta capacidad se mejora sustancialmente al confiar en los estándares de modelos de datos universales característicos de los gráficos semánticos.

Recomendado:  Desafíos de IO en la cadena de suministro conectada

Integración de datos

El beneficio fundamental de este aspecto de la virtualización es la integración de datos, que es más importante que nunca con el excedente de fuentes de datos heterogéneas fuera de la empresa, muchas de las cuales involucran datos estructurados y no estructurados. “Si la integración y la conexión [of data] existen sólo en la capa física, luego los cambios en la capa física rompen las integraciones, o pueden hacerlo ”, comentó Clark. «Todo lo que estamos tratando de hacer es subir de nivel el juego y hacer que haya otro lugar donde puedas hacer la integración y la conexión que se extrae del almacenamiento».

Por lo tanto, las organizaciones pueden mover datos (si así lo desean) a donde tenga más sentido, como al lado de donde ocurre el proceso para casos de uso urgentes en la nube, tal vez. «Esto es algo bueno ahora, porque ahora el nivel de almacenamiento puede evolucionar de forma independiente», comentó Clark. «Eso es algo bueno para el resultado final». Sobre todo, cuando las organizaciones desean mover datos, pueden hacerlo “sin romper cosas”, mencionó Clark, o pasar largos períodos de tiempo recalibrando modelos de datos, trabajando en integraciones y demorando el tiempo de valorización.

Datos no estructurados y semiestructurados

La naturaleza utilitaria de los modelos de datos basados ​​en estándares complementa la accesibilidad universal que las organizaciones logran con la virtualización de datos. Los modelos de gráficos semánticos son ideales para adaptar incluso los datos semiestructurados y no estructurados difíciles de manejar al mismo esquema utilizado para los datos estructurados. Al aprovechar este modelo para reforzar las capacidades de virtualización de datos, «el beneficio de agregar gráficos a la historia de la virtualización es la capacidad de virtualizar o conectarse en un porcentaje mayor del panorama de datos empresariales que importa», reveló Clark. «Simplemente ya no estamos en un mundo en el que solo se trata de datos relacionales».

Recomendado:  Una guía definitiva para el transporte de telemetría de Message Queue Server (MQTT)

La virtualización de datos semiestructurados junto con datos estructurados hace que ambos sean igualmente accesibles para los usuarios empresariales. Además, el enfoque de virtualización de datos elimina la necesidad de concebir los datos en estos términos, particularmente con el enfoque basado en estándares para el modelado de datos que utilizan los gráficos de conocimiento real. “El beneficio clave de unir gráficos y virtualización desde el punto de vista del cliente es que puede obtener más datos”, resumió Clark.

La propuesta de valor principal

La naturaleza cada vez más distribuida del panorama de datos significa muchas cosas. Es un reflejo de las colaboraciones remotas características de trabajar desde casa, el despegue de la nube como el medio de facto para implementar aplicaciones y el cambio a fuentes externas de datos no estructurados y semiestructurados. Sin embargo, también enfatiza los problemas relacionados con la calidad de los datos, el esquema y las integraciones de datos que son fundamentales para la administración de datos.

La virtualización de datos permite a las organizaciones superar los últimos obstáculos para centrarse en los primeros beneficios. Complementarlo con modelos de datos de gráficos mutables aumenta su aplicabilidad a datos de todo tipo para que las empresas puedan «consultar los datos donde se encuentran, sin moverlos ni copiarlos», explicó Clark. «Si tuviera que resumir la propuesta de valor de una manera un poco abstracta … la principal es consultar datos para generar algún resultado comercial sin tener que mover o copiar los datos que son relevantes para esa pregunta comercial».

Sobre el Autor

Jelani Harper es una consultora editorial que presta servicios al mercado de la tecnología de la información. Se especializa en aplicaciones basadas en datos centradas en tecnologías semánticas, gobernanza de datos y análisis.

Suscríbase al boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: @ InsideBigData1 – https://twitter.com/InsideBigData1