Saltar al contenido

Datos sintéticos: ¿la cura para la deriva de datos?

19 de junio de 2023

Los avances recientes en inteligencia artificial y capacidades de visión por computadora han aumentado enormemente la escala y la demanda de datos de entrenamiento. Si bien los datos del mundo real continúan dominando el entrenamiento de IA, a menudo se vuelven obsoletos en tan solo seis meses. Esta es un área de preocupación, ya que las tendencias en constante evolución y la necesidad de que las empresas se mantengan ágiles, dejan poco o ningún margen de error en la toma de decisiones.

Es fundamental que las organizaciones dispongan de datos de formación precisos y fiables más que nunca. Sin embargo, recientemente descubrimos que casi dos tercios de las organizaciones sufren de desviación de datos en sus datos de capacitación.

La deriva de datos es una discrepancia entre los datos reales procesados ​​por el sistema implementado y los datos de entrenamiento utilizados para entrenar, validar y probar el modelo de IA que procesa esa entrada del mundo real. Esto puede surgir como resultado de varios factores, incluidas las variaciones estacionales, el cambio climático e incluso cambios en la moda. El monitoreo regular del rendimiento de un modelo de visión por computadora es esencial para una implementación exitosa. Si la deriva de datos no se identifica a tiempo, puede tener serias implicaciones en el rendimiento del modelo, lo que lleva a que se tomen decisiones comerciales incorrectas.

Este fenómeno puede ser manejable si se trata adecuadamente, por lo general requiere volver a entrenar el modelo con nuevos datos, pero el esfuerzo necesario variará según el alcance del problema. Esto puede ser disruptivo, causar problemas continuos para las organizaciones y ser un problema costoso de resolver. Por lo tanto, detectar la deriva de datos debería ser una parte clave del ciclo de vida del aprendizaje automático. Idealmente, este debería ser un proceso automatizado respaldado por una acción cuidadosa.

Recomendado:  Entrevista: Kathy Baxter, arquitecta de prácticas éticas de IA en Salesforce

¿Qué acciones se pueden tomar?

Los métodos para lidiar con la deriva de datos a menudo no son mutuamente excluyentes, lo que significa que se pueden y es posible que se deban emplear múltiples estrategias. Ha surgido una solución eficaz para minimizar la posible deriva de datos en forma de datos de entrenamiento sintéticos. Se genera artificialmente a partir de sistemas informáticos y brinda la oportunidad de producir mayores volúmenes de datos de entrenamiento precisos de forma rápida y más rentable que la adquisición de datos de entrenamiento del mundo real. Pero, más allá de esto, puede mejorar la solidez de los modelos de IA al proporcionar datos de entrenamiento para casos extremos que pueden ser difíciles o peligrosos de repetir en el mundo real.

Los sistemas que crean datos de entrenamiento sintéticos permiten a los usuarios generar datos de entrenamiento a pedido en lugar de esperar a que ocurran en el mundo real, lo que permite un mayor control sobre el proceso de entrenamiento y brinda la oportunidad de actuar antes de que los datos se vuelvan obsoletos. El 85 % de las organizaciones ya utilizan datos sintéticos para entrenar sistemas de visión artificial y, de las que no, casi un tercio (29 %) anticipa que su organización comenzará a utilizarlos en 2023.

¿Cómo pueden los datos sintéticos garantizar que la deriva de datos sea cosa del pasado?

Los datos sintéticos ofrecen una gran cantidad de ventajas. Es rápido de crear, fácil de actualizar y rentable en comparación con la adquisición de datos de entrenamiento del mundo real. En particular, la anotación de datos de entrenamiento del mundo real requiere mucha mano de obra, mucho tiempo, es costosa y menos precisa que la anotación de datos sintéticos, que es un proceso automatizado y preciso en píxeles. Los datos de entrenamiento sintéticos también se pueden crear de manera inteligente en grandes volúmenes, lo que es particularmente beneficioso para construir modelos de IA más sólidos. Al llenar los vacíos y complementar los datos del mundo real, el uso de datos de entrenamiento sintéticos puede aliviar los problemas fundamentales que conducen a la deriva de datos.

Recomendado:  Lanzamiento de la 13.ª edición del programa de aceleración de empresas emergentes Fit 4 Start para abordar emprendimientos innovadores, basados ​​en tecnología y datos

Otra ventaja clave de los datos sintéticos es la oportunidad de optimizar la eficiencia del entrenamiento. Se pueden generar grandes volúmenes de datos sintéticos mucho más rápidamente que la alternativa de recopilar datos del mundo real. Por lo tanto, los usuarios pueden recopilar rápidamente datos de capacitación para casos en los que se necesitan nuevos datos de inmediato.

Por ejemplo, en el punto álgido de la pandemia, el mandato de las máscaras faciales y el distanciamiento social significaba que algunos sistemas de IA estaban desactualizados y debían volver a capacitarse para reconocer a alguien que usaba una cubierta facial. Otro ejemplo es el despliegue de scooters eléctricos, que también ha aprovechado la visión artificial para la detección de daños y ayuda a prevenir accidentes. Además de actualizar los conjuntos de datos para evitar la deriva de datos, también se deben eliminar los datos que ya no son relevantes. Esto se puede hacer de manera eficiente con la ayuda del entrenamiento de datos sintéticos.

Los conjuntos de datos de entrenamiento que contienen datos privados presentan un riesgo de violar las normas de privacidad cuando se usan para entrenar modelos. Los datos sintéticos evitan este riesgo ya que no contienen información rastreable a individuos. Garantizar el cumplimiento de la privacidad es esencial para proteger a las personas y las empresas de las consecuencias legales y financieras, además de ayudar a generar confianza en la IA.

En general, los datos sintéticos proporcionan conjuntos de datos robustos y versátiles para fines de capacitación de IA. No se basa en esfuerzos manuales y, por lo tanto, es más rápido, completo y rentable de recopilar. Con el avance tecnológico y la innovación, los datos sintéticos se están volviendo más ricos, más diversos y más alineados con los datos del mundo real. Puede ayudar a mantener la privacidad del usuario y hacer que las empresas cumplan, todo lo cual mejora su capacidad para superar el potencial de la deriva de datos.

Recomendado:  Explorando la transformación digital en 2023

Sobre el Autor

Steve Harris, CEO de Mindtech, tiene más de 30 años de experiencia en el sector del mercado tecnológico y tiene una maestría en Ingeniería de Microprocesadores de la Universidad de Manchester. Anteriormente, ha sido fundamental en la creación de varias organizaciones europeas de puesta en marcha, con un historial comprobado de éxito en la construcción de relaciones estratégicas y fuertes flujos de ingresos con empresas de primer nivel en todo el mundo. Antes de su puesto actual, trabajó en varios puestos sénior de ventas y desarrollo comercial en empresas tecnológicas líderes, como: Imagination Technologies, Gemstar, Liberate y Sun Microsystems, lo que le permitió aportar una gran cantidad de conocimientos y experiencia a Mindtech. .

Regístrese para recibir el boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: https://twitter.com/InsideBigData1

Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/

Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW