Saltar al contenido

Cómo usamos los datos sintéticos para mejorar el rendimiento y romper con las restricciones de los conjuntos de datos

27 de marzo de 2023

En este artículo contribuido, Jan Lunter, CEO y CTO de Innovatrics, destaca cómo los datos sintéticos son una tecnología eficiente para complementar conjuntos de datos con tipos de datos que están subrepresentados. Graduado en la Universidad Télécom ParisTech en Francia. Co-fundador y CEO de Innovatrics, que ha estado desarrollando y brindando soluciones de reconocimiento de huellas dactilares desde 2004. Jan es autor del algoritmo para el análisis y reconocimiento de huellas dactilares, que regularmente se ubica entre los primeros en prestigiosas pruebas de comparación (NIST PFT II, ​​NIST Minex ). En los últimos años también se está ocupando del procesamiento de imágenes y el uso de redes neuronales para el reconocimiento facial.

Los avances realizados en los últimos años en las redes antagónicas generativas (GAN) nos permiten aprovechar los beneficios de generar datos sintéticos para una amplia gama de aplicaciones de aprendizaje automático (ML). Hace varios años, comenzamos a entrenar redes neuronales para tareas de reconocimiento óptico de caracteres (OCR) utilizando datos sintéticos. Generamos identificaciones sintéticas para enseñar a las redes neuronales a leerlas de manera confiable, incluso en condiciones subóptimas, por ejemplo, con rayones, reflejos y otros factores.

En el mundo real, nunca podríamos recopilar un conjunto de datos tan grande como lo requiere la tecnología. Incluso los países pequeños no tienen suficientes ciudadanos para proporcionarnos el sólido conjunto de datos reales que necesita el modelo. Es por eso que las identificaciones sintéticas encajan perfectamente.

También comenzamos recientemente proyectos de investigación y desarrollo que generan huellas dactilares sintéticas para mejorar los algoritmos e identificar fragmentos de huellas dactilares, conocidas como huellas dactilares latentes. El análisis de huellas dactilares latentes puede ayudar a los organismos encargados de hacer cumplir la ley, ya que generalmente se encuentran en las escenas del crimen.

Recomendado:  5 formas efectivas de equilibrar la personalización y la seguridad de los datos

Sin embargo, de manera similar a los modelos de reconocimiento facial, obtener un conjunto de datos para entrenar algoritmos de huellas dactilares latentes es extremadamente difícil debido a la alta calidad, el consentimiento y el tamaño del conjunto de datos requerido para fines de ML. Ahora, con la capacidad de generar fragmentos de huellas dactilares artificialmente que cumplan con los estándares requeridos, podemos esperar que los algoritmos mejoren el rendimiento de la identificación, incluso para huellas dactilares fragmentadas o de baja calidad.

Por último, pero no menos importante, los datos sintéticos son una tecnología eficiente para complementar conjuntos de datos con tipos de datos que están subrepresentados. Esto es especialmente cierto para el reconocimiento facial. La generación de caras de alta fidelidad para ML tiene varias otras ventajas además de disminuir el sesgo; no infringen los derechos personales, no requieren consentimiento y se pueden personalizar para satisfacer necesidades y objetivos específicos. Por ejemplo, para las aplicaciones de verificación de edad, podemos generar rostros que estén justo al borde de las edades críticas, de 18 a 21 años, sin violar los estándares éticos o los derechos legales que tienen los menores.

Regístrese para recibir el boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: https://twitter.com/InsideBigData1

Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/

Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW