Saltar al contenido

Sesgo de IA: desafíos y soluciones | Noticias

7 de julio de 2023

Cuando los datos de entrenamiento que contienen sesgos se alimentan a los modelos de IA, los resultados también estarán sesgados.

Crédito: thenextweb.com

El sesgo en la inteligencia artificial (IA) no es un problema nuevo. En 1988, la Comisión para la Igualdad Racial del Reino Unido (ahora la Comisión para la Igualdad y los Derechos Humanos) descubrió que la Escuela de Medicina de St. George en Londres había discriminado por motivos raciales y sexuales «mediante la operación de [a] programa de computadora entre 1982 y 1986». El algoritmo, diseñado para automatizar el proceso de admisión, tuvo ponderaciones negativas para los «nombres no caucásicos» y los de las candidatas.

Durante décadas, el sesgo de la IA fue predominantemente un tema técnico espinoso discutido por investigadores y desarrolladores. Ahora, gracias en parte a la fenomenal aceptación popular de la IA generativa, las conversaciones sobre el sesgo se han lanzado a la esfera pública. La arena está animada, por decir lo menos: se están extrayendo enormes volúmenes de datos para entrenar modelos, algunas tecnologías de código abierto, otras de caja negra, y las divisiones sociales y las ‘guerras culturales’ volátiles agregan tensiones al diálogo.

Los formuladores de políticas han comenzado a tomar medidas: es probable que los aspectos de la Ley de IA propuesta por la UE, como la transparencia y la explicabilidad, afecten el sesgo, y en los EE. UU., el Instituto Nacional de Estándares y Tecnología ha publicado su «primer paso en la hoja de ruta para desarrollar una guía sociotécnica detallada para identificar y gestionar el sesgo de la IA».

Sin embargo, todavía no existen estándares universales para abordar el sesgo de la IA.

Horneado desde el primer momento

El sesgo en la IA es «el sesgo humano integrado en algoritmos, sistemas de aprendizaje automático y sistemas computacionales», explica Yeshimabeit Milner, fundador y director ejecutivo de Data for Black Lives (D4BL), que se describe a sí mismo como «un movimiento de activistas, organizadores y científicos comprometidos con la misión de usar datos para crear cambios concretos y medibles en la vida de los negrosCuando los datos de entrenamiento que contienen sesgos se alimentan a los modelos de IA, los resultados también estarán sesgados. Dice Milner, «Para usar el viejo adagio de la informática: es basura adentro, basura afuera».

El sesgo no se trata solo de las percepciones, dice Milner, sino también de las narrativas que se arraigan en la política y luego «se convierten en código». Ella señala cómo el uso de códigos postales de EE. UU. en la calificación crediticia impulsada por ML, introducido por FICO en 1989, ha desfavorecido a las comunidades negras. Si bien la calificación crediticia no tiene una variable para la raza, el sistema de código postal puede sustituir a la raza, ya que refleja las políticas de segregación y líneas rojas de la década de 1930, explica Milner. «Los códigos postales se han convertido en un representante de la raza. Si le preguntas a alguien dónde vive, por su código postal, puedes predecir más allá de toda duda razonable de qué raza es».

Recomendado:  Esperando lo mejor a medida que evoluciona la IA | abril 2023

Sanmay Das es codirector del Centro para el Avance de la Asociación Humano-Máquina en la Universidad George Mason y presidente del Grupo de Interés Especial en Inteligencia Artificial (ACM SIGAI) de ACM. Al igual que Milner, Das señala que la calificación crediticia de ML ilustra las trampas del sesgo y agrega que a medida que la IA se integra cada vez más en la sociedad, las brechas de datos se suman al problema. Estas brechas ocurren cuando grupos de personas, a menudo de comunidades marginadas, han sido desatendidos o excluidos durante los procesos de recopilación de datos, o cuando los datos sobre grupos específicos simplemente no existen. Es probable que los modelos entrenados con tales datos produzcan resultados sesgados o sesgados.

Dice Das, los investigadores de IA «no son tan buenos» como los científicos sociales para pensar en muestras y, a menudo, recurren al raspado web para obtener velocidad y conveniencia. «Si voy y raspo todo lo que sucede en la Web para entrenar un chatbot, obtendré algo que es muy diferente de la sociedad humana en su conjunto». Es probable que el contenido en inglés o generado en lo que Das llama «salas de chat tóxicas» esté sobrerrepresentado debido al gran volumen de cada uno en línea, explica.

Phoenix Perry, artista e investigador de inteligencia artificial en el Creative Computing Institute del University College London del Reino Unido, compara el sesgo con preparar una comida con «ingredientes contaminados» (en este caso, datos) que están cargados de sesgos que prevalecen en línea, como el racismo, sexismo y transfobia. «Si los datos o los ‘ingredientes’ son defectuosos, ninguna cantidad de destreza computacional o aprendizaje automático avanzado puede rectificar el producto resultante. Esta salida contaminada refleja sesgos sociales dañinos y perpetúa su existencia», dice Perry.

Recomendado:  TinyML está llevando modelos de aprendizaje profundo a los microcontroladores

Incluso si los datos de capacitación no están sesgados, pueden surgir problemas debido a los propios sesgos de los capacitadores de modelos, un problema que se ve agravado por el menor porcentaje de mujeres que hombres que trabajan en IA, dice Arisa Ema del Instituto de Iniciativas Futuras de la Universidad de Tokio y el Centro RIKEN para el Proyecto de Inteligencia Avanzada. «Este sesgo en nuestra estructura social ya crea un sesgo en la comunidad de diseñadores y en la selección de algoritmos y datos».

Buenos datos y base

Si el sesgo está «incrustado», ¿cómo se puede combatir?

Algunas soluciones adoptan un enfoque centrado en el sector. El equipo del proyecto STANDING Together, dirigido por investigadores de la University Hospitals Birmingham NHS Foundation Trust del Reino Unido y la Universidad de Birmingham, está desarrollando estándares para diversos conjuntos de datos para la atención médica de IA que representen mejor a la sociedad.

En un contexto legal, en la conferencia FAccT 2022 de ACM, un equipo del Centro de Investigación y Tecnología Hellas (CERTH) en Grecia, el Centro de TI y Derecho de Propiedad Intelectual en Bélgica, y Trilateral Research, especialistas en IA ética con sede en el Reino Unido, presentó un nuevo enfoque para el ML consciente de la equidad para mitigar el sesgo algorítmico en la aplicación de la ley. Los investigadores utilizaron muestras generadas sintéticamente para crear «conjuntos de datos más equilibrados» que mitigaron los casos de sesgo, con respecto a la raza, que identificaron durante el análisis de los datos existentes.

Para Milner, las soluciones radican en la participación de la comunidad y el replanteamiento de la recopilación de datos, áreas en las que D4BL tiene un historial de instigación del cambio. Durante la pandemia, el equipo lideró la demanda de publicar datos a nivel estatal por raza para investigar el impacto desproporcionado de COVID-19 en las personas negras, y trabajó con científicos de datos voluntarios para construir la base de código para hacerlo. «Cada portal de datos abiertos que publicó datos de COVID-19 automáticamente proporcionó actualizaciones en tiempo real sobre las tasas de muerte e infección de las comunidades negras por estado; esa fue una herramienta realmente poderosa», dice ella.

Milner es optimista sobre el potencial de la IA para generar «avances tremendos». Sin embargo, para que todos se beneficien, el poder de los datos debe «volver a estar en manos de la gente», dice. Las conversaciones sobre IA tienden a ser de élite, dice ella; las soluciones implican involucrar a las organizaciones de base y «cambiar el elenco de personajes» que toman las decisiones. «Se trata de llevar a la gente a la mesa, literalmente, construyendo un movimiento de científicos activistas, comunidades negras y la comunidad científica», dice Milner.

Recomendado:  Muestran preocupación por URLs maliciosas relacionadas con ChatGPT

Como artista, Perry aporta una perspectiva novedosa, abogando por el uso de conjuntos de datos a pequeña escala para combatir el sesgo y facilitar una mayor influencia humana sobre la IA generativa, especialmente en contextos creativos. «La ventaja única de estos conjuntos de datos es su naturaleza altamente personalizada». dice Perry, quien también respalda la regulación formal para restringir el uso del sesgo «para explotar o introducir sesgos en los conjuntos de datos con fines de lucro, una práctica que ya es evidente en las redes sociales».

El fundador y CEO de Stability AI, Emad Mostaque, también ha señalado las ventajas de los conjuntos de datos más pequeños. Hablando en la BBC Domingo con Laura Kuenssberg Recientemente, Mostaque dijo: «No use todo el Internet rastreado, use conjuntos de datos nacionales que estén altamente seleccionados y reflejen la diversidad de la humanidad en comparación con el Internet occidental tal como lo vemos. Es más probable que estos modelos sean estables; son más probabilidades de estar alineado con los humanos».

Das está de acuerdo con Perry en que es hora de la regulación. «Las empresas tienen que enfrentarse a algún tipo de escrutinio sobre el tipo de cosas que están haciendo y poniendo en el mundo», dice, señalando los sistemas regulatorios existentes en el desarrollo de fármacos y la ingeniería genética como ejemplos. «Necesitamos pensar en tener un aparato que tenga algunos dientes; que pueda tratar de incentivar las salvaguardas apropiadas».

Parece probable que se presenten nuevos enfoques para la recopilación de datos y el entrenamiento de modelos y una mayor regulación del sesgo de la IA; es menos seguro si los desarrolladores y los formuladores de políticas se mantendrán al día con la velocidad de los avances.

Karen Emslie es un periodista y ensayista independiente independiente de la ubicación.


entradas no encontradas