Gestión de datos en entornos nativos de la nube: la nueva pila

A medida que la información se vuelve crítica en la experiencia del cliente y los procesos comerciales, la gestión de datos a escala se vuelve cada vez más importante. La tolerancia a la exposición a la pérdida de datos y el tiempo de inactividad que bloquea el acceso a información crítica se ha vuelto baja, mientras que los esfuerzos para obtener un software más rápido y resistente se han centrado en mejorar la gestión y simplificar el trabajo de escalar grandes conjuntos de datos que abarcan múltiples ubicaciones.

En esta presentación de video, analizamos las últimas herramientas que desafían los enfoques tradicionales para satisfacer las necesidades de las aplicaciones con uso intensivo de datos. Hablamos con Wayne Duso, vicepresidente de ingeniería de Amazon Web Services, Jordan Tigani, director de productos de SingleStore y Kabir Shahani, director ejecutivo de Amperity. Las entrevistas se grabaron en la conferencia AWS:ReInvent a fines del año pasado. El editor de TNS, Alex Williams, dirigió las entrevistas.

Mire nuestro resumen aquí y nuestra transcripción ligeramente editada del video:

Alex Williams (anfitrión): Hola a todos, Alex Williams aquí con The New Stack, y hoy estamos hablando de tres cosas que escuchamos en AWS re: Invent sobre datos. Cuáles son esos tres temas, echemos un vistazo: Amazon Glacier y la accesibilidad de los datos en almacenamiento en frío profundo, pensamiento de aplicación primero y WebAssembly y aprendizaje automático (WASM ML) y cómo son la nueva moda. Número uno: Glaciar. AWS anunció más funciones para Glacier, su almacenamiento en frío, incluida la capacidad de extraer datos casi en tiempo real.

Wayne Duso, servicios web de Amazon: Creamos esta clase de almacenamiento para S3 Glacier que les permite recuperar esos datos una, dos, cuatro veces al año en promedio, en milisegundos mediante el aprovechamiento de tecnologías que nos permiten recuperar esos datos en esa cantidad de tiempo. Y también es importante para las capacidades de nivelación inteligente de S3. Por lo tanto, si coloca datos en S3 y activa el nivelado inteligente, esos datos pasarán de varias clases, hasta el archivo profundo. Entonces, a medida que sus datos se vuelven más fríos, esos datos pueden moverse más y más hacia abajo. Y puede poner algunas políticas en torno a eso para que, por ejemplo, ciertos datos solo bajen tan bajo como, digamos, esta nueva recuperación instantánea o acceso instantáneo aquí.

Williams: Número dos: persistencia. Veeam está estableciendo el mercado de respaldo y recuperación de datos. ¿Es salsa secreta? Trate la aplicación como la aplicación; no trate todos los elementos individuales como silos únicos. Las aplicaciones tienen muchos tipos diferentes de almacenamiento y pueden estar estructuradas y no estructuradas. Es posible que tenga almacenamiento de objetos. Y lo ve en servidores, como VMware Data Mover, que se aplica tanto a datos persistentes como no persistentes. Es la aplicación lo que importa.

El nuevo atractivo, SingleStore es un sistema de administración de base de datos SQL relacional distribuido que ahora está integrando soporte para WebAssembly. WebAssembly es un tema candente para aquellos que trabajan en entornos a escala. La escritora de New Stack, Mary Branscombe, describe WebAssembly como una máquina virtual basada en pilas pequeña, rápida, eficiente y muy segura a la que no le importa en qué CPU o sistema operativo se ejecuta. Está diseñado para ejecutar código de bytes portátil compilado a partir de código escrito originalmente en C, C++, Rust, Python o Ruby, a una velocidad casi nativa. WebAssembly no solo se ejecuta en el navegador, se inició en el cliente, pero también está demostrando ser muy útil en el servidor. Hace que sea más fácil trabajar con datos donde están para que pueda mover el cálculo a los datos en sí.

Jordan Tigani, tienda única: Esto le permite poner su lógica de negocios dentro de la base de datos y le permite no tener que saltar a través de aros. Entonces, si escribo en Go, Rust o JavaScript, en la mayoría de las otras bases de datos, debe alinear el lenguaje de programación que está usando con el lenguaje de la base de datos compatible. Y con WASM, puede ejecutar Python, puede ejecutar Rust o casi cualquier cosa. Es una especie de interpretación casi completa.

Williams: Y en el aprendizaje automático, se está argumentando que los modelos ingieran datos de múltiples fuentes sin requerir un esquema. No más entender todas las entidades, todas las fuentes y dibujar un esquema con líneas entre cuadros. Veinte años de ese tipo de trabajo fueron suficientes, especialmente si los datos subyacentes realmente no se pueden usar.

Kabir Shahani, Amperidad: Resulta que muchos de los sistemas tienen datos incorrectos, datos sucios, datos faltantes. Y construyendo un sistema que sea primero los datos, y observando todos esos sistemas, y las piezas de información de nivel atómico subyacentes en cada una de esas fuentes, atravesando todo eso y usando el aprendizaje automático para comprender los patrones en esos datos. Una de las cosas que hicimos fue comercializar un montón de investigaciones de la Universidad de Washington, el principal experto mundial en bases de datos probabilísticas está en la Universidad de Washington. Y usamos su investigación para poder descubrir cómo podríamos entrenar máquinas para intuir qué nos dicen esos datos sobre ese cliente y sobre ese ser humano.

Williams: En resumen, número uno: estamos viendo la necesidad real de accesibilidad a los datos en los sistemas de almacenamiento en frío profundo, en particular, Amazon Glacier. Número dos: el primer pensamiento de la aplicación realmente está echando raíces. Y número tres: todo lo nuevo, desde WebAssembly hasta modelos de aprendizaje automático. Mover la computación a los datos es un camino que está comenzando a surgir.

The New Stack es una subsidiaria de propiedad total de Insight Partners, un inversionista en las siguientes compañías mencionadas en este artículo: SingleStore.