Oracle lanzó MySQL HeatWave Lakehouse, un nuevo servicio basado en la nube diseñado para hacer que las consultas de Lakehouse sean tan rápidas y sencillas como las consultas de bases de datos.
Oracle realizó una vista previa de SQL HeatWave Lakehouse por primera vez en octubre de 2022, por lo que estuvo disponible en pruebas beta en ese momento. Ahora está disponible en general.
Si bien es una nueva incorporación a la cartera de MySQL HeatWave, MySQL HeatWave Lakehouse no es el primer lago de datos de Oracle.
Oracle también ofrece capacidades de lago en su almacén de datos autónomo, una versión totalmente administrada de Oracle Database, que sirve a una base de usuarios diferente a la suite MySQL HeatWave.
«Oracle Database es la oferta corporativa de más alto nivel, y MySQL es… para una variedad de usuarios de bajo presupuesto que aún exigen un buen soporte de sistema de administración de bases de datos», dijo Carl Olofson, analista de IDC.
Beneficios de la casa del lago
Los lagos de datos, iniciados por primera vez por Databricks pero ahora disponibles a través de una variedad de proveedores, incluidos Snowflake y Google, combinan esencialmente las capacidades de los almacenes de datos y los lagos de datos.
Los almacenes de datos se destacan en el almacenamiento de datos estructurados, como registros financieros y de transacciones. Mientras tanto, los lagos de datos utilizan el almacenamiento de objetos y están diseñados para albergar datos no estructurados, como archivos de texto y video. Pero debido a que ambos se especializan en almacenar solo algunos datos, el resultado de implementar ambos puede ser datos aislados que requieren mucho trabajo manual para combinarlos y obtener una vista más completa de una operación.
Sin embargo, los lagos de datos pueden albergar datos estructurados y no estructurados, así como semiestructurados, para que los usuarios puedan combinar más fácilmente diversos tipos de datos y comprender mejor lo que sucede dentro de su organización.
Debido a su flexibilidad, Matt Aslett, analista de Ventana Research, dijo que espera que los data lakehouses se utilicen mucho más en los próximos dos años.
Señaló que el almacenamiento de objetos se ha convertido en una forma económica y común para que las organizaciones almacenen datos. Pero sin estructura, los datos almacenados en lagos de datos son difíciles de usar para informar decisiones. Lakehouses es una forma de abordar este problema, ya que permite combinar datos no estructurados con datos estructurados.
“Estamos viendo un interés creciente en el enfoque de la casa del lago, especialmente entre las organizaciones que ya han invertido en entornos de lago de datos”, dijo Aslett. «Afirmo que para 2025, ocho de cada 10 usuarios actuales de lagos de datos invertirán en la arquitectura de lagos de datos para mejorar el valor comercial generado a partir de sus datos acumulados».
Más allá de permitir a los usuarios combinar fácilmente diversos tipos de datos, los lagos también automatizan gran parte del trabajo para hacerlo, lo cual es clave, según Holger Mueller, analista de Constellation Research.
«Lakehouses son el renacimiento de los grandes datos, que tienen mala reputación, y la industria está funcionando con eso», dijo. «Más importante, [with lakehouses, big data] finalmente está trabajando de una manera fácil y automatizada. Antes funcionaba, pero cuando los consultores se fueron [organizations to themselves]los proyectos tendían a detenerse».
Nuevas capacidades
Oracle presentó por primera vez la base de datos MySQL HeatWave en 2020.
MySQL HeatWave es un servicio de base de datos administrado en memoria que utiliza la plataforma MySQL de código abierto como base y Oracle agrega sus propias capacidades en la parte superior. Y aunque Oracle ejecuta su propia nube, el servicio MySQL HeatWave está disponible tanto en AWS como en Microsoft Azure, además de Oracle Cloud Infrastructure.
Desde su lanzamiento hace tres años, Oracle ha mejorado el servicio MySQL HeatWave con MySQL Autopilot, una capacidad de automatización impulsada por aprendizaje automático diseñada para aprender de consultas anteriores para mejorar la ejecución de consultas futuras.
El 20 de julio, el gigante tecnológico amplió su servicio MySQL HeatWave más allá de las bases de datos para incluir data lakehouses en un movimiento que, según Mueller, fue significativo porque reúne datos estructurados y no estructurados y acelera las consultas con Autopilot.
«Reunir lo estructurado y lo no estructurado es un logro clave y un beneficio desde la perspectiva de los conocimientos», dijo. «Y la configuración con Autopilot lo hace fácil y rápido».
Mientras tanto, Aslett señaló que hay dos enfoques para los data lakehouses.
Un enfoque esencialmente inyecta la funcionalidad de los almacenes de datos en el entorno del lago de datos para combinar las capacidades de los dos.
El otro mantiene los almacenes de datos y los lagos de datos algo separados, utilizando el lago de datos para el almacenamiento de bajo costo y luego aplicando un esquema predeterminado, esencialmente dando estructura a los datos, desde un almacén de datos asociado a los datos previamente no estructurados.
Según Oracle, MySQL HeatWave Lakehouse permite a los usuarios consultar datos en el almacenamiento de objetos, pero no crea un entorno único, esencialmente tomando el segundo enfoque de la arquitectura Lakehouse.
Un beneficio significativo de ese enfoque es el ahorro de costos, ya que no es necesario mover los datos, según Aslett.
«MySQL HeatWave Lakehouse permite a los usuarios consultar datos en almacenamiento de objetos de bajo costo desde MySQL HeatWave sin el costo y la complejidad de moverlos a la base de datos», dijo. «La ventaja de este enfoque es que facilita el análisis de grandes volúmenes de datos de forma relativamente económica».
Hay, sin embargo, una desventaja, continuó.
La velocidad de consulta puede ser más lenta cuando se consultan datos en el almacenamiento de objetos externos en comparación con los datos almacenados en la base de datos. Oracle, sin embargo, afirma que ha eliminado esa preocupación con la implementación de Autopilot.
«La afirmación de Oracle de que los clientes pueden consultar datos en el almacenamiento de objetos tan rápido como consultan datos en la base de datos es significativa», dijo Aslett.
La velocidad de consulta es importante porque las plataformas en la nube cobran a los clientes no solo por la cantidad de poder de cómputo que consumen, sino también por la cantidad de tiempo que pasan usando el servicio. Cada segundo cuenta.
«Cuanto más tiempo pasan en la nube, mayor es la factura», dijo Steve Zivanic, vicepresidente de base de datos y servicios autónomos de Oracle, marketing de productos. «Entregando a estas velocidades aceleradas, [users] van a recibir una factura más baja. Hay una lógica puramente económica».
Mientras tanto, el ímpetu para desarrollar MySQL HeatWave Lakehouse provino de las solicitudes de los clientes, según Nipun Agarwal, vicepresidente sénior de MySQL Database y HeatWave de Oracle.
Señaló que cuando Oracle permitió a los usuarios llevar el procesamiento analítico a MySQL, muchos tenían datos no estructurados en archivos que no podían usar para el análisis.
«Era un punto doloroso y pensamos que podíamos ampliar las capacidades de HeatWave para abordarlo», dijo Agarwal. «Necesitábamos combinar el almacenamiento de objetos con los datos de MySQL».
Planes futuros
Así como el desarrollo de MySQL HeatWave Lakehouse fue impulsado por las solicitudes de los clientes, la hoja de ruta para la suite MySQL HeatWave se basará en los comentarios de los clientes, según Agarwal.
Mientras tanto, ese enfoque en las solicitudes de los clientes es una buena estrategia, según Olofson.
«Su mejor apuesta es permanecer cerca de sus usuarios, escuchar lo que dicen y ver cómo los competidores pueden intentar alejarlos», dijo.
Además, Zivanic señaló que Oracle tiene planes para hacer que la IA generativa forme parte de toda su cartera de gestión y análisis de datos en los próximos meses.
Mientras tanto, Mueller dijo que Oracle se encuentra entre los proveedores de bases de datos en la nube con más funciones y que sus capacidades superan con frecuencia a las de su competencia. Por lo tanto, no tiene una debilidad obvia en comparación con sus pares, por lo que no tiene una funcionalidad obvia para mejorar.
«Son la base de datos en la nube que más rápido innova y queda muy poco [to add]», dijo. «Si hubiera un Oscar por innovación en bases de datos, Agarwal y su equipo lo habrían ganado en los últimos años».
Donde puede haber espacio para el crecimiento, más allá de la infusión de IA generativa mencionada por Zivanic, es yendo más allá del almacenamiento de datos, continuó Mueller.
«Podrían convertirse en… más operaciones de datos y desarrollo de aplicaciones», dijo. «Realmente no queda nada en el lado de la base de datos».
Eric Avidon es redactor sénior de noticias para TechTarget Editorial y periodista con más de 25 años de experiencia. Cubre el análisis y la gestión de datos.