Los datos son el activo más valioso para las empresas modernas. Para que cualquier organización pueda extraer información valiosa de los datos, esos datos deben fluir libremente de manera segura y oportuna a través de sus diferentes plataformas (que producen y consumen los datos). Las canalizaciones de datos que conectan estas fuentes y destinos deben diseñarse e implementarse cuidadosamente; de lo contrario, los consumidores de datos pueden sentirse frustrados con los datos que son antiguos (actualizados hace varios días) o simplemente incorrectos (no coinciden entre la fuente y el destino). Eso podría conducir a decisiones comerciales malas o inexactas, conocimientos más lentos y pérdida de ventaja competitiva.
Los datos comerciales en una empresa moderna se distribuyen en varias plataformas y formatos. Los datos pueden pertenecer a una base de datos operativa (p. ej., Mongo, Oracle, etc.), almacenes en la nube (p. ej., Snowflake), lagos de datos y lagos (p. ej., Databricks Delta Lake) o incluso fuentes públicas externas. Las canalizaciones de datos que conectan esta variedad de fuentes deben establecer algunas mejores prácticas para que los consumidores de datos obtengan datos de alta calidad en el lugar donde se crean las aplicaciones de datos. Algunas de las mejores prácticas que puede seguir un proceso de canalización de datos son:
- Asegúrese de que los datos se entreguen de manera confiable y con alta integridad y calidad. Aquí se aplica el concepto de “basura que entra, basura que sale”. La validación y corrección de datos es un aspecto importante para garantizar eso.
- Asegúrese de que el transporte de datos sea altamente seguro y que no haya datos en un almacenamiento estable sin cifrar.
- La arquitectura de canalización de datos debe ser flexible y capaz de adaptarse a la trayectoria de crecimiento futuro de una empresa. La adición de una nueva fuente de datos no debería conducir a la reescritura de la arquitectura de canalización. Debería ser simplemente un complemento. De lo contrario, será muy exigente para la productividad del equipo de datos.
Un error frecuente que cometen los equipos de datos es subestimar la complejidad de las canalizaciones de datos. Un enfoque de hágalo usted mismo (DIY) solo tiene sentido si el equipo de ingeniería de datos es lo suficientemente grande y capaz como para manejar las complejidades del alto volumen, la alta velocidad y la variedad de datos. Sería prudente evaluar primero si el uso de una plataforma de canalización de datos satisfaría las necesidades antes de apresurarse a implementar algo internamente. Hay varias plataformas disponibles en el mercado hoy en día en el espacio ETL/ELT/ETL inverso.
Otro escollo es implementar una solución vertical que se adapte solo al primer caso de uso en lugar de diseñar una solución que sea lo suficientemente flexible para agregar nuevas fuentes y destinos sin una reescritura completa. Los arquitectos de datos deben pensar de manera holística y diseñar soluciones que sean flexibles y puedan funcionar con una variedad de fuentes de datos (relacionales, no estructuradas, etc.).
El tercer error que suelen cometer los creadores de canalizaciones de datos es evitar cualquier tipo de validación de datos hasta que se produzca una discrepancia de datos. Cuando ocurre una discrepancia, ya es demasiado tarde para implementar cualquier forma de validación o verificación de datos. La validación de datos debe ser un objetivo de diseño de cualquier proceso de canalización de datos desde el principio.
Sobre el Autor
Rajkumar Sen es el fundador y director de tecnología de Arcion, la plataforma de replicación de datos basada en CDC y nativa de la nube. En su cargo anterior como director de ingeniería en MemSQL, diseñó el optimizador de consultas y el motor de procesamiento de consultas distribuidas. Raj también se desempeñó como ingeniero principal en Oracle, donde desarrolló funciones para el optimizador de consultas de la base de datos de Oracle, y como ingeniero sénior en Sybase, donde diseñó varios componentes para Sybase Database Cluster Edition. Ha publicado más de una docena de artículos en conferencias y revistas de bases de datos de primer nivel y ha recibido 14 patentes.
Regístrese para recibir el boletín gratuito insideBIGDATA.
Únase a nosotros en Twitter: https://twitter.com/InsideBigData1
Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/
Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW