Saltar al contenido

Maximización de la utilidad del lago de datos con la optimización de consultas

15 de julio de 2022

De todas las personas del usuario en el panorama de datos, el consumidor de datos es posiblemente el más difícil de apaciguar. A menudo, estos usuarios no prestan atención a los procesos de back-end necesarios para dar servicio a los datos que necesitan para hacer mejor su trabajo.

Simplemente quieren probar sus datos a voluntad, obtener respuestas rápidas a las preguntas y aplicarlos para cumplir mejor con sus objetivos comerciales.

La reciente adquisición de Varada por parte de Starburst se calculó para hacer precisamente eso, particularmente en entornos de lagos de datos en los que las organizaciones tienen enormes cantidades de datos. Según Russell Christopher, director de estrategia de productos de Starburst, la anexión de Varada por parte de la empresa beneficia a los consumidores de datos como «el analista que ahora puede hacer más preguntas y preguntas más completas, porque ahora se puede acceder a todos los datos en el lago de una manera eficaz». .”

Varada proporciona a la plataforma de Starburst dos beneficios fundamentales. Por un lado, emplea computación cognitiva para indexar datos de manera inteligente a escala. Por otro lado, tiene capacidades de almacenamiento en caché que hacen que las consultas sean aún más receptivas para recuperar rápidamente respuestas para la toma de decisiones, análisis y aplicaciones informadas.

Dichos métodos de aceleración de consultas pueden significar la diferencia entre simplemente acumular datos y realmente usarlos.

“Según mi experiencia, porque siempre he estado en análisis, [if] haces que los usuarios esperen demasiado o lo vuelves más engorroso, simplemente dejan de hacer preguntas, y eso implica grandes riesgos para la organización”, advirtió Christopher.

Recomendado:  Lo mejor de arXiv.org para inteligencia artificial, aprendizaje automático y aprendizaje profundo - agosto de 2021

Indexación inteligente

Varada equipa el motor de cómputo de Starburst con una forma de indexación principalmente automatizada que elimina gran parte del trabajo de esta tarea para acelerar las respuestas a las consultas. Utiliza tecnologías estadísticas de inteligencia artificial para evaluar qué datos deben indexarse ​​y luego implementa los índices en consecuencia. Un enfoque similar determina qué datos almacenar en caché.

“Verada tiene, esencialmente, un mecanismo de bucle de aprendizaje automático que observa todas las consultas que se ejecutan en el lago”, explicó Christopher. «Según las columnas a las que se accede y las tablas a las que se accede con más frecuencia, en realidad genera instrucciones sobre qué se debe almacenar en caché e indexar, y cómo».

El sistema subyacente se basa en una variedad de esquemas de indexación, incluidos los árboles. Además, permite a las organizaciones evitar los enfoques manuales de indexación, que normalmente consumen mucho tiempo. “El costo en tiempo de las personas, atraer a las personas y decir cuáles son los datos importantes, cómo se usan y mostrarme cómo, y luego usar esa información para tratar de indexar y almacenar en caché, no tiene que hacer eso nunca más”, reveló Christopher.

Reglas de caché

No es raro que Varada almacene tanto sus índices como sus cachés en SSD. Este último implica lo que Christopher caracterizó como un «formato propietario, formato columnar». Por lo tanto, en lugar de tener que volver a escanear constantemente un lago de datos para recuperar información de él y responder consultas para un caso de uso particular, las empresas pueden acceder a esos datos a través del caché para acelerar el tiempo, los recursos y el costo de emplear datos para obtener información comercial.

Recomendado:  El mercado de la red de área de almacenamiento (SAN) en 2022

Los beneficios de rendimiento de indexar automáticamente los datos más utilizados y almacenarlos en caché para acelerar los tiempos de consulta son formidables. Brindar a los consumidores de datos resultados de consulta más rápidos disminuye la cantidad de recursos informáticos para dicha recuperación de información. En consecuencia, este enfoque puede «reducir sustancialmente los costos de computación en la nube», dijo Matt Fuller, cofundador de Starburst y vicepresidente de productos. “Para las máquinas que están funcionando, según nuestra experiencia, vemos alrededor del 40 por ciento en términos de ahorro de costos. En términos de productividad, estamos viendo tiempos de respuesta alrededor de 7 veces [faster].”

personalización

Otra ventaja de este método de optimización de consultas es que las empresas pueden adaptarlo para satisfacer las necesidades específicas de usuarios, departamentos e implementaciones individuales. Es posible priorizar consultas de acuerdo con las consideraciones anteriores y otras para que las consultas de C-suite sobre informes mensuales, por ejemplo, sean respondidas antes que las de otros usuarios. Además, los usuarios pueden atribuir lo que son esencialmente metadatos a las consultas para que sean más útiles para la empresa.

“Puedes crear grupos de consultas basadas en los usuarios que las están ejecutando o incluso, nuevamente, esta es una de las cosas que creo que es algo divertida, [based on] texto libre que simplemente está sentado en la consulta”, divulgó Christopher. «Al igual que alguien pone un comentario en la consulta diciendo que esta es una gran consulta para el equipo de marketing». Esta funcionalidad supera la capacidad de simplemente acelerar las consultas, pero también las hace más útiles, multiplicando así el valor de los procesos centrados en datos.

Recomendado:  Análisis de crecimiento por impulsores clave, regiones, clases y aplicaciones: la red Bisouv

Automatización curada por humanos

La naturaleza configurable del emparejamiento de Starburst con Varada también proporciona un grado de control humano sobre la automatización subyacente. Con el aprendizaje automático que automatiza la indexación y el almacenamiento en caché para acelerar las consultas, mientras que las personas compartimentan las consultas en grupos, las priorizan y las anotan con metadatos, los humanos supervisan el impacto de estos modelos de IA.

La combinación resultante es beneficiosa para optimizar las consultas y ofrecer los mejores resultados de manera constante. “La parte emocionante es que la tecnología es ‘configúrelo y olvídese’, y hace lo que necesita que haga sin tener que recurrir a todos los datos y expertos en la materia para que sean los cerebros detrás de él”, concluyó Christopher.

Sobre el Autor

Jelani Harper es una consultora editorial que presta servicios al mercado de la tecnología de la información. Se especializa en aplicaciones basadas en datos centradas en tecnologías semánticas, gobierno de datos y análisis.

Regístrese para recibir el boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: @InsideBigData1 – https://twitter.com/InsideBigData1