Saltar al contenido

Cómo los datos amplios, no los macrodatos, brindan recomendaciones más prescriptivas

9 de mayo de 2022

Para que las empresas utilicen de manera efectiva sus datos para la IA con fines predictivos, se debe utilizar una variedad de datos, y especialmente datos amplios.

En el acelerado mundo digital actual, el uso de datos evoluciona constantemente para ayudar a las empresas a comprender mejor los conocimientos de cantidades masivas de repositorios de datos estructurados y no estructurados. Sin embargo, si bien los grandes datos pueden proporcionar análisis críticos para el negocio, los datos sirven principalmente para mostrar lo que sucedió. Pasado. Cada vez más, se deben tener en cuenta datos amplios al realizar análisis predictivos y prescriptivos.


Recomendado: ¿Qué es el Big data?.


Ahí es donde la inteligencia artificial puede ayudar y donde divergen las necesidades de big data para la IA. Desglosándolo, el big data se define por tres factores: volumen, velocidad y variedad. El volumen se refiere al tamaño de los datos disponibles, la velocidad, por otro lado, se refiere a la velocidad a la que llegan y se procesan los datos.

Sin embargo, para que las empresas utilicen de manera efectiva sus datos para la IA con fines predictivos, es necesario un variedad de datos. Con el aumento de la adopción de IA en todos los sectores, la capacidad de acceder a diversos conjuntos de datos es primordial y un catalizador para los algoritmos de IA. En otras palabras, evite que los datos sean demasiado simples y agréguelos con mucha más variedad.

Llamamos a estos datos con variedad «datos amplios», que se obtienen de los datos internos, externos, estructurados y no estructurados de una organización. Esto es crucial porque, en la economía globalizada, el desempeño empresarial depende de muchos parámetros.

Un ejemplo de datos amplios es observar dos plantas de fabricación que diseñan productos en diferentes partes de los Estados Unidos. La ubicación geográfica de estas dos plantas tendrá un impacto en la producción, especialmente si hay fenómenos naturales, como tormentas de nieve. Tener en cuenta el clima y varios otros factores externos dispares, combinados con datos internos para alimentar los algoritmos de IA, dará como resultado predicciones más precisas relacionadas con el inventario, la cadena de suministro y la demanda para cada organización de fabricación. La variedad de datos ofrece más correlaciones y, por lo tanto, un mejor aprendizaje para que los algoritmos de IA proporcionen resultados precisos.

Ver también: ¿Qué es el análisis prescriptivo y por qué lo necesitamos?

¿Por qué no volumen?

El volumen no significa necesariamente un mejor aprendizaje para el algoritmo debido a la falta de diferentes variables dependientes. Si bien, en teoría, tener una gran cantidad de datos es importante para las aplicaciones de IA, el tamaño es menos importante que la variedad para los algoritmos eficientes.

Tomemos, por ejemplo, un proyecto en el que estábamos trabajando que pronosticó datos de pacientes con cáncer. No había tantos pacientes para estudiar, creando solo 150 filas de datos. Esto produjo una cantidad relativamente pequeña de datos para filtrar, y no se consideró big data. Esto planteó la pregunta: ¿había suficientes datos para que un algoritmo de IA aprendiera y predijera los resultados para los pacientes con cáncer? La respuesta, en este caso, fue sí. Porque si bien solo había 150 filas, los datos biométricos, de biosensores y de síntomas constituían miles de columnas, lo que los convertía en datos amplios.

El punto es que la variedad de los datos es más importante para las aplicaciones de IA que el volumen.

Tipos de datos amplios

Como se mencionó, hay diferentes tipos de datos, cuando se combinan, lo convierten en datos amplios como:

  • Datos estructurados internos: Datos que se encuentran en aplicaciones de software como ERP, sistemas CRM o incluso sistemas financieros.
  • Datos internos no estructurados: Documentos, imágenes, informes, diagramas y gráficos que forman parte de sus datos internos no estructurados.
  • Datos externos: Datos de fuentes externas, como datos meteorológicos, socioeconómicos, censales, bursátiles, etc.
  • Datos externos no estructurados: Noticias, imágenes, videos y más desde fuera de los firewalls de la organización.

El marco CUPP: proporcionar una estrategia de datos

Para la adopción exitosa de la IA, es importante contar con las mejores prácticas de IA. Uno de esos marcos es CUPP, que significa recopilación, unificación, procesamiento y presentación. La implementación de estos cuatro pasos es la forma típica en que las organizaciones comienzan sus viajes de IA.

Empresas tradicionales que pueden no haber tenido una estrategia de datos o plataformas de datos y se beneficiarán de la creación de un marco como CUPP. Un marco también es importante cuando se trata de garantizar la veracidad o la precisión de los datos. Las organizaciones requieren datos limpios y de calidad para determinar el resultado deseado, y la veracidad acelera este proceso fenomenalmente.

Estos son los pasos básicos que las organizaciones siguen utilizando el marco CUPP:

1. Comience con un censo de datos

Utilice la metodología del censo de datos para descubrir los activos de datos que tiene una organización tanto interna como externamente.

Parte de este proceso de planificación es localizar fuentes de datos estructurados y no estructurados. Muchas organizaciones pueden sorprenderse de la cantidad de datos no estructurados que tienen, y hacer un censo de datos les permite hacer un balance de todos sus activos de datos.

2. Conozca sus activos de datos

Antes de modelar, es importante ser consciente de lo que ya tiene una organización. Esto ayuda a desarrollar mejores prácticas de IA, pero requiere un poco de paciencia. Esto servirá como base y proporcionará un ROI de capacidad para la adopción de aplicaciones de IA.

Las empresas también necesitan investigar una estrategia de recopilación y unificación para sus datos estructurados y no estructurados internos y externos.

3. Utilice el aprendizaje automático y el procesamiento del lenguaje natural y el aprendizaje automático para convertir y dar sentido al contenido no estructurado

Una organización puede tomar los datos no estructurados que ha obtenido y utilizar el procesamiento de lenguaje natural para convertirlos en contenido estructurado para entrenar sus datos.

Las organizaciones también deben sentirse alentadas por el contenido no estructurado y no tener miedo de él porque ahora hay varias tecnologías disponibles para hacer un uso muy significativo de ese contenido.

Conclusiones clave sobre la necesidad de utilizar datos amplios

Los datos amplios podrían impulsar un viaje de IA mucho más rápido y son cruciales para ayudar a las organizaciones a contextualizar los conocimientos de una variedad de fuentes de datos estructuradas y no estructuradas, pequeñas y grandes. A medida que las tecnologías evolucionen y se desarrollen, no habrá ninguna empresa que se salve de los datos. Las estrategias de datos deben construirse en torno a la obtención y el análisis de una variedad de datos.