Pasando el bombo inicial
A medida que se desvanecía la exageración de los primeros lagos de datos, un lago de datos dejó de confundirse con una plataforma de datos. En cambio, fue reconocido como un contenedor para múltiples colecciones de datos variados que coexisten en una ubicación conveniente.
Hoy en día, los lagos de datos se incluyen formalmente en las estrategias de análisis y datos empresariales. Las organizaciones reconocen que el término lago de datos se refiere solo a una parte del ecosistema empresarial, que incluye:
- Sistemas de origen.
- Tuberías de ingestión.
- Tecnologías de integración y procesamiento de datos.
- Bases de datos.
- Metadatos.
- Motores de análisis.
- Capas de acceso a datos.
Para ser una plataforma integral de inteligencia comercial que genere un alto valor comercial, un lago de datos requiere integración, limpieza, administración y gobierno de metadatos. Las organizaciones líderes ahora están adoptando este enfoque holístico para la gestión del lago de datos. Como resultado, pueden usar análisis para correlacionar diversos datos de diversas fuentes en diversas estructuras. Esto significa conocimientos más completos para que el negocio recurra a la hora de tomar decisiones.
¿Por qué son importantes los lagos de datos?
Debido a que un lago de datos puede ingerir rápidamente todo tipo de datos nuevos, al tiempo que proporciona acceso, exploración y visualización de autoservicio, las empresas pueden ver y responder a la información nueva más rápido. Además, tienen acceso a datos que no podían obtener en el pasado.
Estos nuevos tipos y fuentes de datos están disponibles para el descubrimiento de datos, pruebas de concepto, visualizaciones y análisis avanzados. Por ejemplo, un lago de datos es la fuente de datos más común para el aprendizaje automático, una técnica que a menudo se aplica a archivos de registro, datos de flujo de clics de sitios web, contenido de redes sociales, sensores de transmisión y datos que emanan de otros dispositivos conectados a Internet.
Muchas empresas han deseado durante mucho tiempo tener la capacidad de realizar exploración orientada al descubrimiento, análisis e informes avanzados. Un lago de datos proporciona rápidamente la escala y la diversidad de datos necesarias para hacerlo. También puede ser un punto de consolidación tanto para big data como para datos tradicionales, lo que permite correlaciones analíticas entre todos los datos.
Aunque normalmente se usa para almacenar datos sin procesar, un lago también puede almacenar algunos de los datos intermedios o completamente transformados, reestructurados o agregados producidos por un almacén de datos y sus procesos posteriores. Esto se hace a menudo para reducir el tiempo que los científicos de datos deben dedicar a tareas comunes de preparación de datos.
El mismo enfoque a veces se usa para ocultar o anonimizar la información de identificación personal (PII) u otros datos confidenciales que no son necesarios para el análisis. Esto ayuda a las empresas a cumplir con las políticas de privacidad y seguridad de datos. Los controles de acceso son otro método que las empresas pueden utilizar para mantener la seguridad.