Saltar al contenido

Los silos de datos que lo detienen están todos en su cabeza

15 de enero de 2022

En el panorama de datos moderno, se ha discutido mucho sobre la necesidad de romper los silos de datos para obtener resultados más rápidos y efectivos. Aunque la innovación moderna está comenzando a derribar algunos de esos muros tecnológicos, es importante ajustar la mentalidad para adoptar un nuevo paradigma. Es importante no construir nuevas barreras para reemplazar las antiguas.

Históricamente, debido a las limitaciones de la tecnología disponible, las necesidades comerciales basadas en datos se dividían en casos de uso individuales más fáciles de superar. Para ir desde el inicio de una idea hasta la entrega de valor comercial, las empresas unirían una cadena de soluciones dependientes en serie.

Este modelo es como una carrera de relevos. Con cada “pierna”, diferentes tecnologías y personas llevan el testigo hasta que se entrega a la siguiente. Al igual que en una carrera de 4×100 de alto riesgo, estos pases de testigo son accidentados, arriesgados y lentos. En respuesta, los equipos de datos despliegan energía real y grandes cerebros para diseñar e implementar estas intersecciones. Casar una parte de la cadena de soluciones con la siguiente requiere una ejecución precisa.

La computación en la nube ha cambiado este proceso solo ligeramente. Ha simplificado la unión de tecnologías, pero no puede disimular las arquitecturas inconsistentes, la dispersión de datos, los compromisos de rendimiento y la necesidad de cerebros personalizados. La nube ha facilitado la ingeniería del relevo, pero no ha cambiado fundamentalmente la carrera.

Para eliminar la dislocación y el riesgo asociados con el enfoque de la carrera de relevos, debemos derribar las barreras mentales y los compartimentos que hemos creado para nosotros mismos para ver realmente el mundo sin fronteras en el que viven los datos y en el que se debe trabajar. Esto requiere que nos deshagamos de la segmentación que ha fundamentado nuestra visión histórica de los proyectos de datos y adoptemos tres verdades:

  1. Los datos existen en un continuo de tiempo. Los datos a menudo se encuentran en un estado de flujo, cambiando de un momento a otro. Un latido del corazón humano, las señales de un dispositivo IoT, las palabras procesadas en el autoservicio de la cafetería dejan claro que los datos son dinámicos. A veces, los datos de lotes históricos y estáticos son importantes. En otros, los datos de transmisión nuevos, actualizados al segundo y similares a eventos tienen prioridad. Sin embargo, la mayoría de las veces, ambos, y todo lo demás, importan. No podemos limitar nuestra imaginación pensando en estos datos por separado.
  1. Los datos serán producidos y utilizados por una variedad de tecnologías. La industria del software impulsa la noción de que las aplicaciones y el análisis son universos distintos. Todos sabemos lo contrario. Son simplemente diferentes manifestaciones de datos que se encuentran con el software. Los procesos consumen y publican datos y se benefician de tener una variedad de lenguajes y herramientas disponibles. La categorización de casos de uso puede ser útil para la comunicación humana, pero los términos que levantan barreras artificiales deben dejarse en la puerta al contemplar los sistemas.
  1. Los datos son utilizados por personas, no por roles. Los desarrolladores, los administradores de bases de datos, los analistas cuantitativos, los científicos de datos y los analistas comerciales no son personas reales. Son simplemente etiquetas de roles, con la intención de brindar orientación sobre habilidades, intereses y responsabilidades. Pero las etiquetas son desordenadas y no exhaustivas. Los deportes de equipo no parecen una carrera de relevos. Los sistemas de datos deben soportar tener muchos jugadores en la cancha al mismo tiempo, cada uno realizando tareas diferentes.
Recomendado:  La comprensión básica de los algoritmos utilizados en los correctores ortográficos

Las tecnologías que intentan unificar soluciones dispares no ganarán. Debido a que abordar problemas interesantes requiere equipos complejos, y debido a que los desafíos del mañana son imposibles de predecir hoy, se necesita un marco central único, compartido para soluciones basadas en datos.

Sin embargo, al adoptar la singularidad, podemos exigir profundidad, alcance, velocidad, interoperabilidad y evolución continua. Debemos ver las soluciones de infraestructura de datos como un todo dinámico o ser relegados a una carrera de relevos más lenta y aislada. Cuando todos los problemas de datos se ven a través de la lente de cómo los datos deben cumplir con el software, y los diversos equipos están bien equipados para trabajar juntos, podemos ofrecer un mundo de datos sin fricciones, libre de los límites actuales de intermediación.

Sobre el Autor

Pete Goddard es el director ejecutivo y cofundador de Laboratorios de datos de Deephaven, una empresa de datos que crea software para equipos de datos modernos. Después de fundar la empresa de comercio cuantitativo Walleye Capital en 2005, Pete y su equipo de ingenieros buscaban formas de ayudar a los analistas cuantitativos, científicos de datos, desarrolladores y administradores de carteras a descubrir y desarrollar estrategias y señales más rápidamente. Después de presenciar cómo Walleye se benefició de la solución que construyeron, Pete sacó a esos ingenieros, el sistema de datos y su propiedad intelectual relacionada de Walleye y formó Deephaven como una empresa independiente.

Regístrese para recibir el boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: @InsideBigData1 – https://twitter.com/InsideBigData1