Los investigadores de la Universidad de Princeton han desarrollado una herramienta que señala los posibles sesgos en los conjuntos de imágenes utilizados para entrenar sistemas de inteligencia artificial (IA). El trabajo es parte de un esfuerzo mayor para remediar y prevenir los sesgos que se han colado en los sistemas de IA que influyen en todo, desde los servicios de crédito hasta los programas de sentencia en los tribunales.
Aunque las fuentes de sesgo en los sistemas de IA son variadas, una de las principales causas son las imágenes estereotipadas contenidas en grandes conjuntos de imágenes recogidas de fuentes en línea que los ingenieros utilizan para desarrollar la visión computarizada, una rama de la IA que permite a las computadoras reconocer personas, objetos y acciones. Dado que los cimientos de la visión por computadora se construyen a partir de esos conjuntos de datos, las imágenes que reflejan los estereotipos y los sesgos de la sociedad pueden influir involuntariamente en los modelos de visión por computadora.
Para ayudar a frenar este problema en su origen, los investigadores del Laboratorio de Inteligencia Artificial Visual de Princeton han desarrollado una herramienta de código abierto que descubre automáticamente los posibles sesgos en los conjuntos de datos visuales. La herramienta permite a los creadores y usuarios de los conjuntos de datos corregir los problemas de representación insuficiente o estereotipada antes de que las colecciones de imágenes se utilicen para formar modelos de visión por computadora. En una labor conexa, los miembros del Laboratorio de Inteligencia Artificial Visual publicaron una comparación de los métodos existentes para prevenir los sesgos en los propios modelos de visión computadorizada, y propusieron un nuevo enfoque más eficaz para la mitigación de los sesgos.
El primer instrumento, denominado REVISE (REvealing VIsual biaSEs), utiliza métodos estadísticos para inspeccionar un conjunto de datos a fin de detectar posibles sesgos o problemas de representación insuficiente en tres dimensiones: basada en objetos, basada en el género y basada en la geografía. Como herramienta totalmente automatizada, REVISE se basa en trabajos anteriores que implicaban filtrar y equilibrar las imágenes de un conjunto de datos de una manera que requería más dirección por parte del usuario. El estudio fue presentado el 24 de agosto en la virtual Conferencia Europea sobre Visión por Computadora.
REVISE hace un balance del contenido de un conjunto de datos utilizando las anotaciones y mediciones existentes en las imágenes, como el recuento de objetos, la co-ocurrencia de objetos y personas, y los países de origen de las imágenes. Entre estas medidas, la herramienta expone patrones que difieren de las distribuciones medias.
Por ejemplo, en uno de los conjuntos de datos probados, REVISE mostró que las imágenes que incluían tanto personas como flores diferían entre hombres y mujeres: Los hombres aparecían más a menudo con flores en ceremonias o reuniones, mientras que las mujeres tendían a aparecer en escenarios o pinturas. (El análisis se limitó a anotaciones que reflejaban el género binario percibido de las personas que aparecían en las imágenes).
Una vez que la herramienta revela este tipo de discrepancias, «entonces se plantea la cuestión de si se trata de un hecho totalmente inocuo, o si algo más profundo está sucediendo, y eso es muy difícil de automatizar», dijo Olga Russakovsky, profesora adjunta de ciencias de la computación e investigadora principal del Laboratorio de Inteligencia Artificial Visual. Russakovsky fue co-autora del trabajo con la estudiante graduada Angelina Wang y Arvind Narayanan, un profesor asociado de ciencias de la computación.
Por ejemplo, REVISE reveló que los objetos, incluyendo aviones, camas y pizzas, tenían más probabilidades de ser grandes en las imágenes que los incluían que un objeto típico en uno de los conjuntos de datos. Tal cuestión podría no perpetuar los estereotipos sociales, pero podría ser problemática para la formación de modelos de visión por computadora. Como remedio, los investigadores sugieren que se recojan imágenes de aviones que también incluyan las etiquetas de montaña, desierto o cielo.
Sin embargo, es probable que la representación insuficiente de regiones del globo en los conjuntos de datos de visión artificial dé lugar a sesgos en los algoritmos de la IA. En consonancia con análisis anteriores, los investigadores descubrieron que, en lo que respecta a los países de origen de las imágenes (normalizados por población), los Estados Unidos y los países europeos estaban muy sobrerrepresentados en los conjuntos de datos. Además, REVISE demostró que para las imágenes de otras partes del mundo, los pies de foto a menudo no estaban en el idioma local, lo que sugería que muchas de ellas eran capturadas por turistas y podían dar lugar a una visión sesgada de un país.
Los investigadores que se centran en la detección de objetos pueden pasar por alto cuestiones de equidad en la visión por ordenador, dijo Russakovsky. «Sin embargo, este análisis geográfico muestra que el reconocimiento de objetos puede ser todavía bastante sesgado y excluyente, y puede afectar de forma desigual a diferentes regiones y personas», dijo.
«Las prácticas de recolección de datos en la ciencia de la computación no han sido escudriñadas tan a fondo hasta hace poco», dijo la coautora Angelina Wang, una estudiante graduada en ciencia de la computación. Dijo que las imágenes son en su mayoría «raspadas de Internet, y la gente no siempre se da cuenta de que sus imágenes están siendo utilizadas [in data sets]. Deberíamos recoger imágenes de grupos más diversos de personas, pero cuando lo hagamos, debemos tener cuidado de que las imágenes sean respetuosas».
«Las herramientas y los puntos de referencia son un paso importante… nos permiten captar estos sesgos en una fase temprana del proceso y replantear nuestra configuración de problemas y supuestos, así como las prácticas de recopilación de datos», dijo Vicente Ordóñez-Román, profesor adjunto de informática en la Universidad de Virginia que no participó en los estudios. «En la visión por computador hay algunos desafíos específicos con respecto a la representación y la propagación de estereotipos. Trabajos como los del Laboratorio de Inteligencia Artificial Visual de Princeton ayudan a dilucidar y señalar a la atención de la comunidad de visión por computador algunas de estas cuestiones y ofrecen estrategias para mitigarlas».
Un estudio relacionado del Laboratorio de Inteligencia Visual examinó los enfoques para evitar que los modelos de visión computarizada aprendan correlaciones espurias que puedan reflejar sesgos, como la sobrepredicción de actividades como la cocina en imágenes de mujeres, o la programación de computadoras en imágenes de hombres. Las pistas visuales, como el hecho de que las cebras son blancas y negras, o que los jugadores de baloncesto suelen llevar camisetas, contribuyen a la exactitud de los modelos, por lo que desarrollar modelos eficaces y evitar correlaciones problemáticas es un reto importante en el campo.
En la investigación presentada en junio en la virtual Conferencia Internacional sobre Visión por Computadora y Reconocimiento de Patrones, el estudiante graduado en ingeniería eléctrica Zeyu Wang y sus colegas compararon cuatro técnicas diferentes para mitigar los sesgos en los modelos de visión por computadora.
Descubrieron que una técnica popular conocida como entrenamiento de adversarios, o «justicia a través de la ceguera», perjudicaba el rendimiento general de los modelos de reconocimiento de imágenes. En el entrenamiento adversario, el modelo no puede considerar la información sobre la variable protegida – en el estudio, los investigadores usaron el género como caso de prueba. Un enfoque diferente, conocido como entrenamiento independiente del dominio, o «justicia a través de la conciencia», funcionó mucho mejor en el análisis del equipo.
«Esencialmente, esto dice que vamos a tener diferentes frecuencias de actividades para diferentes géneros, y sí, esta predicción va a ser dependiente del género, así que vamos a aceptar eso», dijo Russakovsky.
La técnica esbozada en el documento mitiga los posibles sesgos al considerar el atributo protegido separadamente de otras pistas visuales.
«La forma en que abordamos realmente el tema de la parcialidad es un problema más profundo, porque por supuesto podemos ver que está en los datos mismos», dijo Zeyu Wang. «Pero en el mundo real, los humanos todavía pueden hacer buenos juicios siendo conscientes de nuestros prejuicios» — y los modelos de visión por computador pueden ser configurados para trabajar de una manera similar, dijo.