En la nube híbrida, la empresa mejorada con IA, los datos no estructurados están en todas partes… y crecen exponencialmente. La movilidad de datos no estructurados no es un evento de una sola vez, sino una oportunidad para ubicar continuamente los datos para satisfacer las necesidades de la organización.
Muchos líderes de TI empresariales están almacenando petabytes de datos, repartidos en silos en sus centros de datos, en ubicaciones perimetrales y en la nube. La mayoría de estos datos son datos no estructurados y se almacenan como archivos de muchos tipos y tamaños, como documentos, imágenes, videos, genómica, IoT y datos de investigación.
Los datos no estructurados son costosos de almacenar, proteger y administrar debido a su gran volumen y ritmo de crecimiento. Las organizaciones de TI se están dando cuenta de que, dado que el 80 % de los datos no estructurados generalmente se congelan a los pocos meses de su creación, al tratar los datos fríos de manera diferente, pueden reducir costos significativos sin comprometer el acceso de los usuarios. Las nuevas amenazas, como el ransomware, se suman a la urgencia de abordar la gestión de datos no estructurados de manera eficiente.
El resultado es que los datos no estructurados están cada vez más en movimiento a lo largo de su ciclo de vida hacia opciones de almacenamiento y copia de seguridad menos costosas y hacia lagos de datos y aplicaciones de análisis. Necesita una estrategia para administrar esa movilidad continua.
Primero, he aquí por qué la movilidad de datos es tan crítica:
- Crecimiento de datos: Los datos no estructurados pueden ser archivos grandes y muchos archivos pequeños y crecen exponencialmente cada año. Los días de antaño en los que podía comprar uno o dos dispositivos de almacenamiento y configurarlos en el centro de datos sin preocupaciones han terminado. Las empresas regularmente necesitan agregar capacidad a su NAS, SAN u otros dispositivos de almacenamiento, y las interrupciones en la cadena de suministro desde la pandemia han hecho que este proceso sea mucho más lento. Por lo tanto, es imperativo tener un enfoque matizado de los datos y no tratarlos de la misma manera. No es sostenible, es demasiado caro y es un desperdicio.
- Reducir los costos generales: La mayoría de las empresas gastan al menos el 30% de su presupuesto de TI en almacenamiento de datos, según la Informe sobre el estado de la gestión de datos no estructurados de 2022. Almacenar todos sus datos en el almacenamiento de nivel 1 no solo aumenta la factura del almacenamiento principal, sino también el costo de las copias de seguridad y la recuperación ante desastres. De hecho, las copias de seguridad representan la mayor parte de su factura, ya que los datos activos suelen tener tres copias. Por lo tanto, la movilidad de datos puede reducir significativamente los datos activos para reducir drásticamente los costos generales de almacenamiento.
- Ciclos de vida de datos: La mayoría de las organizaciones conservan todos o la mayoría de sus datos de forma indefinida, pero a medida que los datos envejecen, su valor cambia. Algunos datos se vuelven «fríos» o se acceden con poca frecuencia o no se necesitan después de 30 días, pero deben conservarse durante un período de tiempo por razones reglamentarias o de cumplimiento; algunos datos deben ser eliminados; y algunos datos pueden ser necesarios para fines de investigación o análisis más adelante. Presumiblemente, una respuesta fácil es mover esos datos a un almacenamiento seguro en la nube, pero elegir la clase de almacenamiento en la nube incorrecta es arriesgado: el almacenamiento de archivos en la nube suele ser entre 10 y 50 veces más costoso que los niveles de nube más baratos. Garantizar una fácil movilidad de los datos a medida que envejecen y comprender las mejores opciones para los diferentes segmentos de datos es primordial.
- Reutilización de datos: Otra razón por la que la movilidad de datos no estructurados es imperativa se debe a la creciente adopción de la IA y el aprendizaje automático. Una vez que los datos ya no están en uso activo, tienen el potencial para una segunda o tercera vida en los programas de análisis de big data. Puede migrar algunos datos a un nivel de nube de bajo costo para fines de archivo, pero TI u otros departamentos con los permisos correctos deberían poder descubrirlos fácilmente más adelante y moverlos a un lago de datos en la nube o una herramienta de inteligencia artificial cuando sea necesario para muchos casos de uso diferentes. .
- Actualización de tecnología: Las arquitecturas de almacenamiento normalmente se vuelven obsoletas cada tres a cinco años y hay nuevas opciones en el horizonte. Los proveedores de la nube suelen ofrecer nuevas opciones de precio-rendimiento cada año. Aprovechar las últimas opciones puede mejorar significativamente la relación precio-rendimiento, la disponibilidad y la facilidad de uso de los datos. Sin embargo, requiere migraciones de datos y gestión del ciclo de vida de los datos entre proveedores y arquitecturas de almacenamiento.
- Nuevas estrategias comerciales: Cuando una organización se somete a una fusión, adquisición o desinversión, debe cumplir con los nuevos requisitos de gobierno y cumplimiento para los datos. De manera similar, la empresa puede embarcarse en una nueva estrategia de nube o adoptar una nueva arquitectura de datos. En todos estos ejemplos, las necesidades de movilidad de datos cambiarán. Necesita una arquitectura de administración de datos no estructurada flexible para cumplir con los nuevos requisitos a medida que surgen, de modo que pueda encontrar, segmentar y mover datos a nuevas ubicaciones sin molestias ni costos excesivos.
¿Qué nuevos requisitos trae consigo la movilidad continua de datos?
Las estrategias ad hoc para abordar la movilidad de datos ya no funcionan en este complejo entorno de datos cuando los requisitos y las necesidades están en constante cambio. Los líderes de TI necesitan una forma sistemática de administrar el movimiento de datos y cumplir con los nuevos requisitos, reducir costos, ser sostenibles y respaldar nuevos proyectos para el análisis de datos no estructurados. Esto es lo que está involucrado:
- Visibilidad de los datos: La capacidad de observar datos en silos de almacenamiento para ver tendencias, patrones, anomalías y modelar costos es fundamental para tomar decisiones inteligentes. De manera similar, es importante tener una forma unificada de buscar datos en silos para encontrar conjuntos de datos específicos y moverlos a nuevas ubicaciones según sea necesario.
- Análisis de datos: Las organizaciones de TI necesitan comprender los datos a través de varias características para tomar las decisiones correctas para su gestión. La antigüedad de los datos y la hora del último acceso, el tamaño y el tipo de archivo, los principales propietarios de datos, los costos, el volumen de datos y las tasas de crecimiento de datos son algunas de las principales métricas para realizar un seguimiento.
- Clasificación de datos en frío: Segmente y nivele los datos inactivos o fríos antes de migrar. Con demasiada frecuencia, las organizaciones enviarán grandes conjuntos de datos a la nube para ahorrar dinero, pero se perderán ahorros significativos porque están levantando y trasladando datos de una costosa ubicación de almacenamiento a otra. Mueva los datos a los que rara vez se accede a un almacenamiento de objetos de bajo costo, como AWS Glacier o Azure Blob. Migre los datos calientes o tibios a un nivel de alto rendimiento hasta que caduquen de acuerdo con sus políticas.
- Comprender las clases de almacenamiento en la nube: Las opciones de almacenamiento en la nube siempre están cambiando y madurando para los clientes y la elección puede ser abrumadora. Asóciese con un experto en almacenamiento de datos en la nube para ayudar a guiar estas decisiones de modo que pueda asignar de manera eficiente los conjuntos de datos correctos al servicio de almacenamiento en la nube correcto y crear un plan para la gestión del ciclo de vida de los datos en la nube.
- Colaboración departamental: Las organizaciones de TI de hoy se centran en la gestión de datos, no en el almacenamiento. Con ese fin, trabajar directamente con los propietarios de los datos en las estrategias es esencial para evitar conflictos y garantizar que las decisiones para la gestión y la movilidad de los datos sean acertadas.
- Automatización de políticas: En entornos de datos a gran escala, especialmente en una gran empresa con muchas partes interesadas, recursos compartidos y directorios diferentes, no puede admitir la administración del ciclo de vida de los datos manualmente. Utilice una solución de gestión de datos no estructurados que le permita crear y automatizar fácilmente políticas para copiar, jerarquizar, migrar y confinar/eliminar distintos conjuntos de datos. En última instancia, la automatización de políticas generará más ahorros, un mejor cumplimiento y la seguridad de que los datos siempre se encuentran en el lugar correcto en el momento correcto.
- Acceso nativo a los datos: Los datos son su activo corporativo. Independientemente de dónde desee migrar o almacenar en niveles los datos, debe asegurarse de que sea fácilmente accesible y utilizable en su destino de destino. La noción de acceso nativo a los datos simplemente significa que si mueve los datos a una nueva ubicación de almacenamiento, como el almacenamiento de objetos en la nube, puede acceder a ellos allí y moverlos a otro lugar sin necesidad de pasar por la capa de almacenamiento de archivos, lo que incurre en derechos de licencia y requiere una capacidad adecuada. Se requiere acceso nativo a la nube para usar servicios de inteligencia artificial y aprendizaje automático basados en la nube. De lo contrario, sus datos estarán bloqueados y no estarán disponibles para actividades adicionales de valor agregado.
Los datos no estructurados son tanto un pasivo como un activo. Administrarlo correctamente con un plan para la movilidad de datos a largo plazo debería ser una de las principales iniciativas para la TI empresarial en la actualidad. Al hacerlo, puede obtener más valor de los volúmenes masivos de datos no estructurados, ser lo más rentable posible y habilitar nuevas formas de encontrar y usar datos para servir mejor a la organización en general.
Sobre el Autor
Krishna Subramanian es director de operaciones, presidente y cofundador de Komprise. En su carrera, Subramanian ha construido tres negocios exitosos de TI respaldados por empresas y fue nombrada una de las «100 mujeres más influyentes de 2021» por Silicon Valley Business Journal.
Regístrese para recibir el boletín gratuito insideBIGDATA.
Únase a nosotros en Twitter: https://twitter.com/InsideBigData1
Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/
Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW