Los datos no estructurados se han convertido en uno de los mayores problemas para las empresas en los últimos años debido a su crecimiento exponencial y, en 2022, comenzaron a ser un problema para el que las soluciones estaban disponibles y eran rentables para las empresas de nivel empresarial. Nos sentamos con Krishna Subramanian, cofundador de Komprise, que se ocupa diariamente de datos no estructurados para preocupaciones de nivel empresarial, para averiguar por qué a las empresas les interesa administrar sus datos no estructurados más temprano que tarde.
THQ:
Solo para los recién llegados al problema: ¿cuál es el problema fundamental con los datos no estructurados? Ahora bien, ¿de qué estamos hablando cuando decimos “datos no estructurados”?
KANSAS:
Los datos no estructurados son cualquier dato que no encaja perfectamente en una base de datos y que no está realmente estructurado en filas y columnas. Entonces, cada foto en su teléfono, cada radiografía, cada resonancia magnética, cada secuencia del genoma, todos los datos generados por los automóviles autónomos, todo eso son datos no estructurados. Y quizás más relevante para más empresas, la inteligencia artificial (IA) y el aprendizaje automático (ML), dependen de datos no estructurados y, por lo general, también generan datos.
Los datos no estructurados crecen cada día a un ritmo realmente asombroso. Hoy, el 85% de los datos del mundo son datos no estructurados.
Y es más del doble, cada dos años.
THQ:
¿Somos simplemente viejos, o esto es algo bastante nuevo?
KANSAS:
Definitivamente es bastante nuevo. Retrocede una década y casi nadie sabría de qué estamos hablando. Los datos no estructurados en ese entonces eran muy pequeños en comparación con los datos estructurados.
THQ:
¿Porque para ser considerado «datos» en aquel entonces, tenías que ser el tipo de datos que encajan en las bases de datos?
KANSAS:
En parte eso, pero también la creciente ubicuidad de cosas como los teléfonos inteligentes, el desarrollo de nuevas tecnologías radicales como AI y ML, y la digitalización de datos que antes no estaban digitalizados: piense en datos de censos, registros médicos, registro de tierras, todo eso.
THQ:
Entonces, desde la llegada de la nube, esencialmente, nos hemos vuelto locos por los datos no estructurados. Y cada día hay más y más. Somos nosotros jugando al abogado del diablo, pero… ¿por qué debería importarle a las empresas? Y mucho menos desarrollar un sistema de datos no estructurados estrategia para hacer frente al problema?
Un montón de portátiles
KANSAS:
Un par de razones. Cuando decimos que se está generando una gran cantidad de datos no estructurados, no nos referimos simplemente a los niveles de datos de «su disco duro se está llenando». Solo como ejemplo, trabajamos con Pfizer, la compañía farmacéutica. Los científicos de Pfizer generan alrededor de 10 TB todos los días.
THQ:
Estamos hablando con usted en este momento a través de una computadora portátil de 2 TB.
KANSAS:
¿Tienes otros cuatro a mano? De eso es de lo que estamos hablando: un hábito de cinco computadoras portátiles al día.
Te despiertas mañana, son otras cinco computadoras portátiles. Y al día siguiente. Y el siguiente
THQ:
Bien, eso es un lote de datos. Entiendo.
KANSAS:
Y la mayoría de las empresas que generan ese volumen de datos tienen que conservar los datos durante al menos 25 años.
THQ:
Eso es… eso es un valor de 45,500 computadoras portátiles.
KANSAS:
Entonces, cuando decimos que es un problema que se está volviendo demasiado grande para ignorarlo, ahora tiene una idea de la escala del problema.
THQ:
Muchas, muchas computadoras portátiles con problemas.
KANSAS:
Derecha. Pero eso es sólo una parte del problema. Después de todo, es la década de 2020, no lo harías Realmente almacenar todos esos datos en una serie interminable de computadoras portátiles. Hay muchas soluciones de almacenamiento más eficientes.
Primero, capture sus datos
THQ:
Por supuesto.
KANSAS:
¿Qué datos necesitan qué solución? Porque todos tienen diferentes implicaciones de costos. ¿Qué datos necesitan un almacenamiento permanente costoso y cuáles menos permanentes? ¿Qué son los datos calientes? ¿Cuál es frío?
THQ:
¿Cómo se supone que debemos saber?
KANSAS:
Exactamente. Además, ¿dónde están todos los datos? La mayoría de las empresas no están seguras de qué datos tienen, y mucho menos en qué silos se encuentran.
THQ:
Entonces, seremos nosotros los que obtendremos una estrategia de datos no estructurados.
KANSAS:
Exactamente. El problema es demasiado grande para ignorarlo, y también es posible que las empresas pierdan dinero, día tras día, semana tras semana, si están pagando mucho dinero para almacenar todos sus datos como si fueran los mismos.
Sin embargo, ¿quieres saber lo mejor?
THQ:
Siempre.
KANSAS:
Si usted obtener una estrategia de datos no estructurados, no solo puede encontrar todos los datos, no solo puede ahorrar en el almacenamiento de los datos, sino que una vez que haya puesto algo de estructura alrededor de sus datos no estructurados, puede extraerlos. Y si puede hacer eso, puede convertir los datos en algo que genere ingresos.
Dinero por datos antiguos
THQ:
Entonces, ¿es esencial en términos de no perder dinero en efectivo para almacenar incorrectamente los datos, y útil en la medida en que le reembolsa el costo de hacerlo?
Entonces, ¿dónde estamos en términos de negocios, datos no estructurados, conciencia y adopción de estrategias y soluciones?
KANSAS:
Bueno, el punto es que es demasiado grande para ignorarlo. ahora. Solo se volverá más y más imposible de ignorar el próximo año. Y la tecnología y la experiencia existen para resolver este problema hoy, por lo que cada día que espera, solo está alimentando el problema.
THQ:
Entonces, esencialmente, el argumento no es tanto por qué las empresas deberían hacer esto, sino por qué no lo harían lo antes posible, para quitarse de encima el mono del almacenamiento y comenzar a pagar su camino.
Cómo funciona la solución
KANSAS:
Exactamente. Las empresas en estos días son ahogo en datos no estructurados. No saben qué es valioso, qué no es valioso, está apareciendo un ransomware que puede robar sus datos. Tienen que almacenar estos datos y protegerlos, tienen que cumplir con las leyes y reglamentos.
THQ:
Entonces, ¿cómo se resuelve el problema?
KANSAS:
Las empresas necesitan algo de tecnología que les ayude, porque la escala de este problema es demasiado grande.
Lo primero que quieren es algo de automatización, para que puedan comprender qué datos tienen, qué tan rápido crece, quién los usa, dónde se encuentran, cuánto les cuesta y cuál es la postura de seguridad en sus datos.
THQ:
Entonces, ¿una auditoría de datos completa?
La entrevista como ejemplo
KANSAS:
Derecha. Y lo segundo que quieren es la movilización de datos. ¿Cómo puede usar estos análisis para mover los datos al lugar correcto en el momento correcto? La razón por la que es importante es porque los datos en realidad tienen un valor diferente en diferentes puntos de su vida. Tome esta conversación. Lo estamos grabando mientras hablamos. Una vez que tengamos la grabación, tal vez escuche la grabación varias veces entre ahora y cuando escriba el artículo, para asegurarse de que tiene las citas correctas. Tiene un alto valor de relevancia hasta que lo usa para escribir su artículo.
¿Entonces que? El día después de que esto se publique en el sitio, tendrá una nueva versión de los datos, en forma de historia en el sitio web. ¿Qué tan probable es que regrese y escuche la grabación nuevamente?
Tal vez pueda guardarlo por un tiempo, en caso de que surjan problemas y un entrevistado diga «Yo no dije eso» o «Usted interpretó esto mal». Si conserva la grabación, puede volver a verificar la precisión y modificarla según sea necesario o decir «Dijiste exactamente eso, lo tengo en la grabación».
¿Qué tal dentro de un año? ¿Cuál es entonces el valor de relevancia de la grabación? Probablemente significativamente menos, ¿verdad? En este caso, es posible que incluso pueda eliminar los datos de forma segura, ya que ha establecido otra versión en el artículo. La mayoría de las empresas en realidad mantienen la mayoría de los datos por si acaso pueden necesitarlo más tarde. Pero la mayoría de los datos están fríos, nunca se usan activamente.
Pero si mantiene los datos fríos en un almacenamiento costoso, y conserva tal vez tres o cuatro copias de seguridad de ellos, y una copia de protección contra ransomware en algún lugar, eso es un lote de costo adicional e infraestructura que probablemente no necesiten porque están almacenando datos fríos. No es que no proteja los datos fríos; si no lo hiciera, sería una presa fácil para los ladrones de datos, pero si están fríos, puede darse el lujo de adoptar un enfoque de gestión de datos más pasivo.
Suponiendo que sepa que está allí, y qué es, y su nivel de calor. Si sabe todo eso y sabe que son datos fríos, puede ponerlos en un almacenamiento más económico o en un almacenamiento duradero como la nube, donde la nube en sí misma mantendría dos o tres copias de los datos. Pero no conoce todos esos detalles hasta que comienza el proceso de gestión de datos.
Entonces, existe la gestión activa de datos y la gestión pasiva de datos, y el costo de los dos es muy diferente. Y si comprende sus datos y puede mover los datos correctos al lugar correcto en el momento correcto, podría ahorrar entre un 70 y un 80 % de los costos de infraestructura de los datos no estructurados. Y eso es lo primero que quieren hacer nuestros clientes.
En la Parte 2 de este artículo, profundizaremos en el proceso de administración de datos no estructurados, cómo funciona y cómo los datos no estructurados que asfixian a la empresa pueden convertirse en una fuente de combustible económico para la empresa propietaria.