Saltar al contenido

Repensar el paradigma del análisis de datos para desbloquear el valor real de los datos

29 de diciembre de 2021

La pandemia ha acelerado rápidamente tres tendencias tecnológicas importantes: 1. migraciones a la nube, 2. seguridad relacionada con esas migraciones y 3. toma de decisiones basada en datos y experiencias del cliente. Centrémonos en la tercera de esas iniciativas porque, de las tres, el progreso serio en la categoría de análisis de datos ha sido extremadamente lento.

En el mundo de la infraestructura analítica, es hora de dejar de jugar en los márgenes y, en cambio, dar un gran paso adelante. Podemos y debemos hacerlo mejor de lo que aceptamos hoy como «normal». He construido mi carrera en torno a las bases de datos y la infraestructura de datos durante los últimos 30 años y me sorprende ver cuán frustrada está la industria cuando se trata de aprovechar al máximo los datos.

Un nuevo estudio encargado por Dremio y producido por Wakefield Research encontró que la gran mayoría de los encuestados usaba al menos un almacén de datos (84%) y aproximadamente la mitad usaba un lago de datos (51%); muchos están usando activamente ambos (37%). Presumiblemente, todos intentan capacitar a los usuarios comerciales, pero solo el 28% informa que es «muy fácil» para sus usuarios finales desarrollar conocimientos por sí mismos. Sin duda, esto es frustrante tanto para los equipos de ingeniería de datos como para los consumidores de datos comerciales, y ¿por qué no lo sería? No es por falta de gasto. El 55% dice que su empresa está gastando más en almacenar / usar datos que hace dos años, pero solo el 22% de los que aumentaron el gasto creen que han visto un retorno total de esa inversión. Por supuesto que están frustrados. Incluso se podría decir «desesperado» cuando el 63% de los encuestados reconoció que ha invertido dinero en malas inversiones para intentar mejorar sus situaciones analíticas.

Mi experiencia es que el principal culpable de estas expectativas no realizadas es la complejidad. Lo he visto desde el principio de mi carrera hasta el día de hoy. ¿Qué más podría explicar una barra tan increíblemente baja para las expectativas en torno a algo tan básico como la frescura de los datos? Solo el 16% de los encuestados dijeron que esperan «actualización el mismo día» en su conjunto de datos. Este es un mundo donde todo sucede a la velocidad de una máquina. ¿Con qué se han conformado en su lugar? Lamentablemente, el 51% dice que espera datos «nuevos» en unas semanas o más extenso.

Bajo las sábanas, la copia y el movimiento de datos a menudo están minando de manera nefasta los plazos y la eficiencia. Un abrumador 80% de los encuestados dijo que los tiempos de extracción, transformación y carga (ETL) se subestiman cuando se trata de la planificación de proyectos, lo que genera retrasos y objetivos comerciales fallidos. Las copias empeoran las cosas. El 60% dijo que tiene 10 o más copias de los mismos conjuntos de datos flotando para satisfacer diversas necesidades de análisis. Esto, por supuesto, presenta problemas de seguridad y gobernanza, y también afecta directamente las decisiones comerciales. Poco más del 80% informó que los analistas de datos han utilizado versiones inconsistentes de lo que debería haber sido el mismo conjunto de datos en su toma de decisiones. Con trabajos ETL de larga duración y copias en proliferación, no es un misterio el por qué.

Recomendado:  Los premios Hang Lung Mathematics fomentan los talentos de las matemáticas y la investigación durante dos décadas Los expertos comparten cómo las matemáticas y la ciencia de los macrodatos ayudan a crear una forma de vida más sostenible para la humanidad y el planeta

Sin embargo, con todas esas frustraciones, pocos creen que podamos dejar de invertir. De hecho, el 79% de los líderes de datos informan estar preocupados por los costos continuos de escalar su infraestructura. Recuerde, esto se suma a lo que mencioné anteriormente acerca de invertir dinero adicional en malas inversiones existentes. El bloqueo de proveedores y los sistemas cerrados representan el 76% de las preocupaciones de los líderes, lo que limita su capacidad para explorar soluciones nuevas e innovadoras.

Como dice el viejo refrán, «¡Todos se quejan del clima, pero nadie hace nada al respecto!» Para aquellos de nosotros que hemos estado en esta industria por un tiempo, estas preocupaciones no son nuevas. Verlos en forma cuantitativa es inquietante, pero todos sabemos que ha habido problemas de larga data que solo han mejorado ligeramente con el tiempo. Necesitamos que mejoren mucho y más rápido. ¿Es eso posible? Yo creo que lo es.

Quizás una analogía sea un buen punto de partida. A medida que el mundo de las aplicaciones avanzó hacia las aplicaciones móviles e Internet nativas, hubo un cambio masivo en las arquitecturas de las aplicaciones. Pasamos de un mundo cliente / servidor a microservicios. En ese último mundo, las cosas se volvieron más modularizadas y más abiertas. Un desarrollador ya no tenía que realizar cambios en una base de código monolítica masiva para agregar funcionalidad o mejorar una característica existente. La naturaleza de los recursos en la nube permitió mejoras radicales en el rendimiento de las aplicaciones y los SLA de disponibilidad, pero eso solo fue posible porque adoptamos un cambio de arquitectura fundamental subyacente.

Recomendado:  Snorkel AI acelera la adopción del modelo de base con IA centrada en datos

Las arquitecturas de datos deben revolucionarse de la misma manera.

El más fundamental de estos cambios proviene de ver la capa de datos como su propio nivel de primera clase en el diagrama de arquitectura. Ya no debemos centrarnos en traer datos al servicio (es decir, poner los datos dentro un almacén de datos); en su lugar, deberíamos llevar los servicios de análisis e inteligencia empresarial directamente a los datos (lagos de datos). Esto representa un gran paso adelante para repensar la accesibilidad, la capacidad de administración y la flexibilidad del uso de nuestros datos. Imagine un mundo en el que sus datos se encuentran en un solo lugar, y desde allí se puede acceder a través de un número n de servicios, cada uno de los cuales accede a los datos a través de estándares abiertos. Una vez que comienza con una arquitectura como esta, una “arquitectura de datos abiertos”, surgen numerosas innovaciones y posibilidades, todas orientadas hacia un tiempo de acceso a los datos más rápido, menores costos, más flexibilidad y una mejor gobernanza.

Suena de ensueño, lo sé. Pero así es como funciona la innovación: soñando en grande y no aceptando el status quo de las estadísticas desalentadoras que se presentan en este artículo. Y si comienza a echar un vistazo a lo que están haciendo las principales empresas de datos, puede darse cuenta de que este sueño se está convirtiendo en realidad más rápido de lo que piensa.

Sobre el Autor

Billy Bosworth se desempeña como director ejecutivo de Dremio. Como líder tecnológico con más de 30 años de experiencia, Bosworth ha ocupado varios roles y posiciones de liderazgo durante su carrera profesional. Fue testigo de primera mano del ascenso y la caída de algunos de los cambios más importantes en el software empresarial y comenzó bien cuando despegaba la explosión de las bases de datos relacionales. Como director ejecutivo de Dremio, Bosworth es responsable de la estrategia general, la dirección y el crecimiento de la empresa SQL Lakehouse. Poco después de unirse a Dremio, ayudó a la empresa a conseguir 200 millones de dólares en nuevo capital, lo que llevó su valoración de mercado total a 1.000 millones de dólares por primera vez. Antes de Dremio, Bosworth se desempeñó como CEO de Datastax durante más de ocho años, donde hizo crecer la empresa de menos de $ 1 millón a más de $ 100 millones. Bosworth se graduó de la Universidad de Louisville con una licenciatura en ciencias de la información y procesamiento de datos.

Recomendado:  Un enfoque de "caja de cristal" para el aprendizaje automático responsable

Suscríbase al boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: @ InsideBigData1 – https://twitter.com/InsideBigData1