Los sistemas de inteligencia artificial pueden completar tareas rápidamente, pero eso no significa que siempre lo hagan de manera justa. Si los conjuntos de datos utilizados para entrenar modelos de aprendizaje automático contienen datos sesgados, es probable que el sistema muestre ese mismo sesgo cuando toma decisiones en la práctica.
Por ejemplo, si un conjunto de datos contiene principalmente imágenes de hombres blancos, entonces un modelo de reconocimiento facial entrenado con estos datos puede ser menos preciso para mujeres o personas con diferentes tonos de piel.
Un grupo de investigadores del MIT, en colaboración con investigadores de la Universidad de Harvard y Fujitsu, Ltd., trató de comprender cuándo y cómo un modelo de aprendizaje automático es capaz de superar este tipo de sesgo de conjuntos de datos. Utilizaron un enfoque de la neurociencia para estudiar cómo los datos de entrenamiento afectan si una red neuronal artificial puede aprender a reconocer objetos que no ha visto antes. Una red neuronal es un modelo de aprendizaje automático que imita el cerebro humano en la forma en que contiene capas de nodos interconectados, o «neuronas», que procesan datos.
Los nuevos resultados muestran que la diversidad en los datos de entrenamiento tiene una gran influencia en la capacidad de una red neuronal para superar el sesgo, pero al mismo tiempo la diversidad de conjuntos de datos puede degradar el rendimiento de la red. También muestran que la forma en que se entrena una red neuronal y los tipos específicos de neuronas que surgen durante el proceso de entrenamiento pueden desempeñar un papel importante en la capacidad de superar un conjunto de datos sesgado.
«Una red neuronal puede superar el sesgo del conjunto de datos, lo cual es alentador. Pero la conclusión principal aquí es que debemos tener en cuenta la diversidad de datos. Necesitamos dejar de pensar que si solo recopila una tonelada de datos sin procesar, eso En primer lugar, debemos tener mucho cuidado con la forma en que diseñamos los conjuntos de datos «, dice Xavier Boix, científico investigador del Departamento de Ciencias Cognitivas y del Cerebro (BCS) y el Centro de Cerebros, Mentes y Máquinas (CBMM). ), y autor principal del artículo.
Los coautores incluyen a los exestudiantes de posgrado Spandan Madan, un autor correspondiente que actualmente está realizando un doctorado en Harvard, Timothy Henry, Jamell Dozier, Helen Ho y Nishchal Bhandari; Tomotake Sasaki, un ex científico visitante que ahora es investigador en Fujitsu; Frédo Durand, profesor de ingeniería eléctrica e informática y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial; y Hanspeter Pfister, Profesor An Wang de Informática en la Escuela de Ingeniería y Ciencias Aplicadas de Harvard. La investigación aparece hoy en Naturaleza Máquina Inteligencia.
Pensando como un neurocientífico
Boix y sus colegas abordaron el problema del sesgo del conjunto de datos pensando como neurocientíficos. En neurociencia, explica Boix, es común utilizar conjuntos de datos controlados en los experimentos, lo que significa un conjunto de datos en el que los investigadores saben tanto como sea posible sobre la información que contiene.
El equipo construyó conjuntos de datos que contenían imágenes de diferentes objetos en diversas poses y controló cuidadosamente las combinaciones para que algunos conjuntos de datos tuvieran más diversidad que otros. En este caso, un conjunto de datos tiene menos diversidad si contiene más imágenes que muestran objetos desde un solo punto de vista. Un conjunto de datos más diverso tenía más imágenes que mostraban objetos desde múltiples puntos de vista. Cada conjunto de datos contenía el mismo número de imágenes.
Los investigadores utilizaron estos conjuntos de datos cuidadosamente construidos para entrenar una red neuronal para la clasificación de imágenes y luego estudiaron qué tan bien podía identificar objetos desde puntos de vista que la red no vio durante el entrenamiento (conocido como una combinación fuera de distribución).
Por ejemplo, si los investigadores están entrenando un modelo para clasificar autos en imágenes, quieren que el modelo aprenda cómo son los diferentes autos. Pero si cada Ford Thunderbird en el conjunto de datos de entrenamiento se muestra de frente, cuando al modelo entrenado se le da una imagen de un Ford Thunderbird tomado de lado, puede clasificarlo erróneamente, incluso si se entrenó en millones de fotos de autos.
Los investigadores encontraron que si el conjunto de datos es más diverso, si más imágenes muestran objetos desde diferentes puntos de vista, la red es más capaz de generalizar a nuevas imágenes o puntos de vista. La diversidad de datos es clave para superar el sesgo, dice Boix.
«Pero no es que más diversidad de datos siempre sea mejor; aquí hay una tensión. Cuando la red neuronal mejore en el reconocimiento de cosas nuevas que no ha visto, entonces será más difícil para ella reconocer cosas que ya ha visto, » él dice.
Probar métodos de entrenamiento
Los investigadores también estudiaron métodos para entrenar la red neuronal.
En el aprendizaje automático, es común entrenar una red para realizar múltiples tareas al mismo tiempo. La idea es que si existe una relación entre las tareas, la red aprenderá a realizar cada una mejor si las aprende juntas.
Pero los investigadores encontraron que lo contrario era cierto: un modelo entrenado por separado para cada tarea pudo superar el sesgo mucho mejor que un modelo entrenado para ambas tareas juntas.
«Los resultados fueron realmente sorprendentes. De hecho, la primera vez que hicimos este experimento, pensamos que era un error. Nos tomó varias semanas darnos cuenta de que era un resultado real porque fue muy inesperado», dice.
Se sumergieron más profundamente en las redes neuronales para comprender por qué ocurre esto.
Descubrieron que la especialización de las neuronas parece desempeñar un papel importante. Cuando la red neuronal se entrena para reconocer objetos en imágenes, parece que surgen dos tipos de neuronas: una que se especializa en reconocer la categoría del objeto y otra que se especializa en reconocer el punto de vista.
Cuando la red está entrenada para realizar tareas por separado, esas neuronas especializadas son más prominentes, explica Boix. Pero si una red está entrenada para realizar ambas tareas simultáneamente, algunas neuronas se diluyen y no se especializan para una tarea. Estas neuronas no especializadas tienen más probabilidades de confundirse, dice.
«Pero la siguiente pregunta ahora es, ¿cómo llegaron allí estas neuronas? Entrenas la red neuronal y surgen del proceso de aprendizaje. Nadie le dijo a la red que incluyera este tipo de neuronas en su arquitectura. Eso es lo fascinante». él dice.
Esa es un área que los investigadores esperan explorar con trabajos futuros. Quieren ver si pueden obligar a una red neuronal a desarrollar neuronas con esta especialización. También quieren aplicar su enfoque a tareas más complejas, como objetos con texturas complicadas o iluminaciones variadas.
Boix se siente alentado por el hecho de que una red neuronal puede aprender a superar el sesgo, y tiene la esperanza de que su trabajo pueda inspirar a otros a ser más reflexivos sobre los conjuntos de datos que están utilizando en las aplicaciones de IA.
Este trabajo fue apoyado, en parte, por la Fundación Nacional de Ciencias, un Premio de Investigación de la Facultad de Google, el Instituto de Investigación de Toyota, el Centro de Cerebros, Mentes y Máquinas, Fujitsu Laboratories Ltd. y la Alianza MIT-Sensetime sobre Inteligencia Artificial.