Kubernetes también realiza el descubrimiento de datos • The Register

Patrocinado Durante más de una década y media, la gente ha estado hablando de big data y los atributos que tiene en la empresa moderna.

Canta junto con nosotros, porque conoces las tres V del big data: Volumen, Velocidad, y Variedad, a lo que algunos han añadido posteriormente Veracidad y uno o dos Valor. Eso es estirar un poco el punto, tal vez. Pero una cosa que falta en todo este V-talk acerca de los bits agrandados que caen en cascada en el centro de datos es el simple hecho de que si no puede encontrar los datos, no le sirve de nada.

Necesitamos una palabra en V para «encontrar» y no pudimos pensar en una después de rascarnos la cabeza por un tiempo y tampoco pudimos encontrar una buena en los tesauros en línea del mundo, lo cual es gracioso si lo piensas bien. Visibilidad parece más débil de lo que estamos buscando, así que descubrimiento de datos, el tema del último artículo de esta serie de cuatro partes relacionado con Kubernetes en el centro de datos empresarial, tendrá que ser suficiente.

Y en lo que respecta a Red Hat, el descubrimiento de datos no se trata solo de averiguar qué datos tiene y encontrar los datos correctos para resolver un problema en particular o crear un algoritmo específico, sino también de establecer que los conjuntos de datos no están llenos de basura que podría radicalmente sesgar los resultados.


Recomendado: ¿Qué es el Big data?.


Limpieza profunda

«La ciencia de datos es una fuerza disruptiva que está adquiriendo una importancia cada vez mayor», explica Pete Brey, director de marketing de servicios de datos de Red Hat, cuya plataforma OpenShift se está convirtiendo en la piedra de toque para Kubernetes de nivel comercial.

“Las grandes empresas se están dando cuenta de esto y ningún negocio quedará intacto y, de hecho, su posición competitiva dependerá de la ciencia de datos hasta cierto punto. Y seamos sinceros, gran parte de la ciencia de datos en la empresa se utiliza con fines de marketing. Así es como las empresas se relacionan con sus clientes. Pero dependiendo de a quién le pregunte, entre el 40 y el 50 por ciento (algunos dicen que el 80 por ciento) del tiempo que los científicos de datos dedican a su trabajo es solo para encontrar los datos correctos, y luego, una vez que los encuentran, la limpieza de los datos es un gran desafío. . Los científicos de datos deben dedicar más tiempo a los algoritmos y el aprendizaje automático y menos tiempo a preocuparse por encontrar los datos correctos y asegurarse de que estén limpios «.

Este ha sido un problema constante en el procesamiento de datos, y realmente no era tan diferente hace tres décadas con el surgimiento de Teradata y sus competidores en el negocio emergente de almacenamiento de datos, con la pesadilla de extracción / transformación / carga realizada en lotes masivos de datos históricos. registros de bases de datos relacionales. De hecho, esto creó valor para muchas empresas, pero con un esfuerzo enorme. Y la situación de descubrimiento y limpieza de datos realmente no había mejorado para las empresas con el surgimiento del marco de procesamiento distribuido MapReduce y su sistema de archivos distribuido Hadoop subyacente hace más de una década, lo que permitió datos más grandes pero resultó en consultas mucho más lentas que las personas solía hacerlo. Volvimos al modo por lotes (y tuvimos que hacerlo, dado el tamaño de los datos).

Los científicos de datos deben dedicar más tiempo a los algoritmos y el aprendizaje automático y menos tiempo a preocuparse por encontrar los datos correctos y asegurarse de que estén limpios.

“El ritmo del cambio con los datos se está acelerando”, dice Brey. “Si bien ETL y la carga por lotes todavía ocurren, estamos viendo cada vez más análisis de datos en tiempo real, y eso también está cambiando la naturaleza del descubrimiento de datos. Ya no pensamos solo en términos de registros, archivos y objetos. Tenemos que preocuparnos por extraer datos de grandes mangueras contra incendios y muchas pequeñas pajitas «.

Con este fin, se han desarrollado técnicas de catalogación y etiquetado de datos, a menudo utilizando técnicas de aprendizaje automático, que pueden crear automáticamente metadatos sobre los datos para que se puedan encontrar más fácilmente en el futuro.

“La mayoría de las organizaciones inteligentes intentan hacer esto de forma automatizada”, explica Brey. “Aquí es donde Kafka y otras aplicaciones de transmisión analizan las transmisiones que ingresan y eso hace que ciertos procesos sucedan aguas abajo en función de las etiquetas que están asociadas con las transmisiones.

«Este es un primer paso muy importante. Etiquetar los datos por adelantado es un enfoque muy valioso porque ayuda a resolver el problema posterior de encontrar los datos más tarde para su uso. De esta manera, los datos se etiquetan y se pueden mover directamente a una base de datos, datos almacén o lago de datos. En el aprendizaje automático, el concepto se traslada a un tipo especial de base de datos, llamado almacén de características. Esto prepara los datos, los procesa previamente y los almacena en una base de datos para que la máquina los consuma en el futuro. aprender modelos de entrenamiento a medida que pasan por las numerosas iteraciones y cambios de algoritmo «.

El etiquetado y catalogación de datos es el primer paso en el descubrimiento de datos, pero una vez que se ha hecho y hay una gran variedad de conjuntos de datos, debe encontrar los datos. No es tan simple como verter todos sus datos en un almacén de objetos S3 y luego colocar Elasticsearch o IBM Spectrum Discover encima, aunque las empresas hacen esto.

Esto es necesario pero no suficiente porque no todos los datos que son útiles para los científicos de datos se encuentran en un almacén de objetos. El objetivo del pastel en el cielo es tener un servicio de datos federado (piense en PrestoDB de Facebook y sus variantes comerciales Ahana y Starburst, o el software de almacenamiento en caché de datos Tachyon de AMPLab en la Universidad de California en Berkeley y su variante comercial Alluxio) que pueda deje los datos donde están, en el formato en el que ya están, y ejecute una consulta, ya sea en una base de datos relacional, un almacén de objetos, HDFS o lo que sea.

Si sus datos son un desastre y realmente necesita comenzar a pensar en cómo hace el descubrimiento de datos, la implementación de la plataforma de Kubernetes es el momento perfecto para hacer este trabajo. Y si ya ha hecho que su descubrimiento de datos actúe en conjunto, Kubernetes podrá aprovechar gran parte del trabajo que ya ha realizado.

“Si es inteligente al respecto, pensará en cómo aprovechar Kubernetes no solo para brindar la agilidad que necesita para sus aplicaciones, sino también para sus datos”, aconseja Brey.

“Vas a estar lidiando con un entorno informático distribuido, heterogéneo y diverso, y tienes que construir una plataforma de almacenamiento y acceso a datos que tenga el mismo tipo de agilidad y diversidad. Si no obtiene los datos correctos y no puede encontrar lo que necesita para tomar una buena decisión, entonces todo este otro trabajo que realiza esencialmente se reduce a nada «.

Patrocinado por Red Hat.