Databricks, la compañía de datos e IA y pionera del paradigma de lago de datos, anunció varias contribuciones a proyectos populares de código abierto de datos e IA, incluidos Delta Lake, MLflow y Apache Spark.
Databricks anunció que la empresa contribuirá con todas las funciones y mejoras que ha realizado en Delta Lake a Linux Foundation y abrirá todas las API de Delta Lake como parte del lanzamiento de Delta Lake 2.0. Además, la empresa anunció MLflow 2.0, que incluye MLflow Pipelines, una nueva función para acelerar y simplificar las implementaciones de modelos de ML. Finalmente, la compañía presentó Spark Connect, para permitir el uso de Spark en prácticamente cualquier dispositivo, y Project Lightspeed, un motor Spark de transmisión estructurada de próxima generación para la transmisión de datos en la casa del lago.
“Desde el principio, Databricks se ha comprometido con los estándares abiertos y la comunidad de código abierto. Hemos creado, contribuido, fomentado el crecimiento y donado algunas de las innovaciones más impactantes en la tecnología moderna de código abierto”, dijo Ali Ghodsi, cofundador y director ejecutivo de Databricks. “Los lagos de datos abiertos se están convirtiendo rápidamente en el estándar de cómo las empresas más innovadoras manejan sus datos e IA. Delta Lake, MLflow y Spark son fundamentales para esta transformación arquitectónica, y estamos orgullosos de hacer nuestra parte para acelerar su innovación y adopción”.
Delta Lake 2.0 trae Lakehouse a todos
Delta Lake 2.0 brindará un rendimiento de consultas inigualable a todos los usuarios de Delta Lake y permitirá que todos construyan un data lakehouse de alto rendimiento en estándares abiertos. Con esta contribución, los clientes de Databricks y la comunidad de código abierto se beneficiarán de la funcionalidad completa y el rendimiento mejorado de Delta Lake 2.0. La versión candidata de lanzamiento de Delta Lake 2.0 ya está disponible y se espera que se lance por completo a finales de este año. La amplitud del ecosistema de Delta Lake lo hace flexible y poderoso en una amplia gama de casos de uso. Impulsando esto hay una comunidad vibrante de más de 6400 miembros, con desarrolladores contribuyentes de más de 70 organizaciones contribuyentes.
“Databricks proporciona a Akamai un formato de almacenamiento de tablas abierto y probado para cargas de trabajo exigentes como la nuestra. Lakehouse impulsa el análisis interactivo a escala para que nuestros clientes puedan tener un análisis casi en tiempo real de los eventos de seguridad dentro de nuestra plataforma Edge”, dijo Aryeh Sivan, vicepresidente de ingeniería de Akamai. “Estamos muy entusiasmados con la rápida innovación que Databricks, junto con la comunidad en rápido crecimiento, está trayendo a Delta Lake. También esperamos colaborar con otros desarrolladores en el proyecto para llevar la comunidad de datos a mayores alturas”.
“El proyecto Delta Lake está experimentando una actividad fenomenal y tendencias de crecimiento que indican que la comunidad de desarrolladores quiere ser parte del proyecto. La fortaleza de los colaboradores ha aumentado en un 60 % durante el último año y el crecimiento en las confirmaciones totales ha aumentado en un 95 % y el promedio de líneas de código por confirmación ha aumentado en un 900 %. Estamos viendo esta velocidad ascendente de organizaciones contribuyentes como Uber Technologies, Walmart y CloudBees, Inc., entre otras”, dijo el director ejecutivo de la Fundación Linux, Jim Zemlin.
MLflow 2.0 presenta MLflow Pipelines para crear plantillas y automatizar MLOps
Como uno de los proyectos de aprendizaje automático (ML) de código abierto más exitosos, MLflow estableció el estándar para las plataformas de ML. El lanzamiento de MLflow 2.0 presenta Canalizaciones de MLflow a la plataforma, reduciendo sustancialmente el tiempo de producción y mejorando la ejecución a escala a través de la estandarización. MLflow Pipelines ofrece a los científicos de datos plantillas predefinidas y listas para producción basadas en el tipo de modelo que están construyendo para permitirles arrancar y acelerar el desarrollo de modelos de manera confiable sin requerir la intervención de los ingenieros de producción.
Motor de transmisión de próxima generación y chispa cuando y donde sea
Como motor unificado líder para el análisis de datos a gran escala, Spark escala sin problemas para manejar conjuntos de datos de todos los tamaños. Sin embargo, la falta de conectividad remota y la carga de aplicaciones desarrolladas y ejecutadas en el nodo del controlador dificultan los requisitos de las aplicaciones de datos modernas. Para abordar esto, Databricks presentó chispa conectar, una interfaz de cliente y servidor para Apache Spark basada en la API de DataFrame que desacoplará el cliente y el servidor para una mejor estabilidad y permitirá una conectividad remota integrada. Con Spark Connect, los usuarios podrán acceder a Spark desde cualquier dispositivo.
En colaboración con la comunidad Spark, Databricks también anunció proyecto velocidad de la luz, la próxima generación del motor de transmisión Spark. A medida que ha aumentado la diversidad de aplicaciones que pasan a la transmisión de datos, han surgido nuevos requisitos para admitir las cargas de trabajo de datos más solicitadas para Lakehouse, transmisión de datos. Spark Structured Streaming ha sido ampliamente adoptado desde los primeros días de la transmisión debido a su facilidad de uso, rendimiento, gran ecosistema y comunidades de desarrolladores. Con eso en mente, Databricks colaborará con la comunidad y alentará la participación en Project Lightspeed para mejorar el rendimiento, el soporte del ecosistema para los conectores, mejorar la funcionalidad para procesar datos con nuevos operadores y API, y simplificar la implementación, las operaciones, el monitoreo y la resolución de problemas.
Regístrese para recibir el boletín gratuito insideBIGDATA.
Únase a nosotros en Twitter: @InsideBigData1 – https://twitter.com/InsideBigData1