Antes de que un modelo de aprendizaje automático pueda completar una tarea, como identificar el cáncer en imágenes médicas, el modelo debe estar entrenado. El entrenamiento de modelos de clasificación de imágenes generalmente implica mostrar al modelo millones de imágenes de ejemplo reunidas en un conjunto de datos masivo.
Sin embargo, el uso de datos de imágenes reales puede generar preocupaciones prácticas y éticas: las imágenes podrían infringir las leyes de derechos de autor, violar la privacidad de las personas o estar sesgadas contra un determinado grupo racial o étnico. Para evitar estas trampas, los investigadores pueden usar programas de generación de imágenes para crear datos sintéticos para el entrenamiento de modelos. Pero estas técnicas son limitadas porque a menudo se necesita conocimiento experto para diseñar a mano un programa de generación de imágenes que pueda crear datos de entrenamiento efectivos.
Los investigadores del MIT, el MIT-IBM Watson AI Lab y otros lugares adoptaron un enfoque diferente. En lugar de diseñar programas de generación de imágenes personalizados para una tarea de entrenamiento en particular, recopilaron un conjunto de datos de 21,000 programas disponibles públicamente en Internet. Luego usaron esta gran colección de programas básicos de generación de imágenes para entrenar un modelo de visión por computadora.
Estos programas producen diversas imágenes que muestran colores y texturas simples. Los investigadores no curaron ni alteraron los programas, cada uno de los cuales constaba de unas pocas líneas de código.
Los modelos que entrenaron con este gran conjunto de datos de programas clasificaron las imágenes con mayor precisión que otros modelos entrenados sintéticamente. Y, aunque sus modelos tuvieron un rendimiento inferior al de los entrenados con datos reales, los investigadores demostraron que aumentar la cantidad de programas de imágenes en el conjunto de datos también aumentó el rendimiento del modelo, lo que reveló un camino para lograr una mayor precisión.
«Resulta que usar muchos programas que no están seleccionados es mejor que usar un pequeño conjunto de programas que la gente necesita manipular. Los datos son importantes, pero hemos demostrado que se puede llegar bastante lejos sin datos reales», dice Manel Baradad. , un estudiante graduado de ingeniería eléctrica y ciencias de la computación (EECS) que trabaja en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y autor principal del artículo que describe esta técnica.
Los coautores incluyen a Tongzhou Wang, estudiante de posgrado de EECS en CSAIL; Rogerio Feris, científico principal y gerente del MIT-IBM Watson AI Lab; Antonio Torralba, Catedrático de Ingeniería Eléctrica e Informática de Delta Electronics y miembro del CSAIL; y el autor principal Phillip Isola, profesor asociado en EECS y CSAIL; junto con otros en JPMorgan Chase Bank y Xyla, Inc. La investigación se presentará en la Conferencia sobre sistemas de procesamiento de información neuronal.
Repensar el preentrenamiento
Los modelos de aprendizaje automático generalmente están preentrenados, lo que significa que primero se entrenan en un conjunto de datos para ayudarlos a construir parámetros que se pueden usar para abordar una tarea diferente. Un modelo para clasificar los rayos X se puede entrenar previamente utilizando un gran conjunto de datos de imágenes generadas sintéticamente antes de que se entrene para su tarea real utilizando un conjunto de datos mucho más pequeño de rayos X reales.
Estos investigadores demostraron previamente que podían usar un puñado de programas de generación de imágenes para crear datos sintéticos para el entrenamiento previo del modelo, pero los programas debían diseñarse cuidadosamente para que las imágenes sintéticas coincidieran con ciertas propiedades de las imágenes reales. Esto hizo que la técnica fuera difícil de escalar.
En el nuevo trabajo, utilizaron un enorme conjunto de datos de programas de generación de imágenes no seleccionados.
Comenzaron reuniendo una colección de 21.000 programas de generación de imágenes de Internet. Todos los programas están escritos en un lenguaje de programación simple y comprenden solo unos pocos fragmentos de código, por lo que generan imágenes rápidamente.
«Estos programas han sido diseñados por desarrolladores de todo el mundo para producir imágenes que tienen algunas de las propiedades que nos interesan. Producen imágenes que se parecen al arte abstracto», explica Baradad.
Estos programas simples pueden ejecutarse tan rápido que los investigadores no necesitaron producir imágenes por adelantado para entrenar el modelo. Los investigadores descubrieron que podían generar imágenes y entrenar el modelo simultáneamente, lo que agiliza el proceso.
Utilizaron su enorme conjunto de datos de programas de generación de imágenes para preentrenar modelos de visión artificial para tareas de clasificación de imágenes tanto supervisadas como no supervisadas. En el aprendizaje supervisado, los datos de la imagen se etiquetan, mientras que en el aprendizaje no supervisado, el modelo aprende a categorizar las imágenes sin etiquetas.
Mejora de la precisión
Cuando compararon sus modelos preentrenados con modelos de visión artificial de última generación que habían sido preentrenados con datos sintéticos, sus modelos fueron más precisos, lo que significa que colocaron las imágenes en las categorías correctas con más frecuencia. Si bien los niveles de precisión aún eran inferiores a los de los modelos entrenados con datos reales, su técnica redujo la brecha de rendimiento entre los modelos entrenados con datos reales y los capacitados con datos sintéticos en un 38 por ciento.
«Es importante destacar que mostramos que para la cantidad de programas que recopila, el rendimiento escala logarítmicamente. No saturamos el rendimiento, por lo que si recopilamos más programas, el modelo funcionaría aún mejor. Por lo tanto, hay una forma de ampliar nuestro enfoque». dice Manel.
Los investigadores también utilizaron cada programa de generación de imágenes individual para el entrenamiento previo, en un esfuerzo por descubrir los factores que contribuyen a la precisión del modelo. Descubrieron que cuando un programa genera un conjunto de imágenes más diverso, el modelo funciona mejor. También descubrieron que las imágenes coloridas con escenas que ocupan todo el lienzo tienden a mejorar más el rendimiento del modelo.
Ahora que han demostrado el éxito de este enfoque de preentrenamiento, los investigadores quieren extender su técnica a otros tipos de datos, como los datos multimodales que incluyen texto e imágenes. También quieren seguir explorando formas de mejorar el rendimiento de la clasificación de imágenes.
«Todavía hay una brecha por cerrar con modelos entrenados en datos reales. Esto le da a nuestra investigación una dirección que esperamos que otros sigan», dice.