El gigante minorista en línea Amazon recientemente eliminó la palabra N de la descripción de un producto de una figura de acción de color negro y admitió a CBC News que sus salvaguardas no eliminaron el término racista.
El control de la empresa multimillonaria tampoco logró evitar que la misma palabra apareciera en las descripciones de productos para un trapo y una cortina de ducha.
La empresa con sede en China que vende la mercancía probablemente no tenía idea de lo que decía la descripción en inglés, dijeron los expertos a CBC News, ya que un programa de lenguaje de inteligencia artificial (IA) produjo el contenido.
Los expertos en el campo de la IA dicen que es parte de una lista cada vez mayor de ejemplos en los que las aplicaciones de los programas de IA en el mundo real arrojan resultados racistas y sesgados.
«La IA tiene un problema racial», dijo Mutale Nkonde, ex periodista y experto en políticas tecnológicas que dirige la organización sin fines de lucro AI For the People, con sede en EE. UU., Cuyo objetivo es acabar con la subrepresentación de los negros en el sector tecnológico estadounidense.
«Lo que nos dice es que la investigación, el desarrollo y la producción de IA está realmente impulsada por personas ciegas al impacto que la raza y el racismo tienen en la configuración no solo de los procesos tecnológicos, sino también de nuestras vidas en general».
Amazon le dijo a CBC News en un comunicado enviado por correo electrónico que la palabra se deslizó a través de sus salvaguardas que mantienen los términos ofensivos fuera del sitio. Esas salvaguardas incluyen equipos que monitorean las descripciones de los productos.
«Lamentamos el error», dijo el comunicado de Amazon, que desde entonces corrigió el problema.
Pero hay otros ejemplos en línea de programas de idiomas basados en IA que proporcionan traducciones con N-word.
En Baidu, el principal motor de búsqueda de China, se sugiere la palabra N como una opción de traducción para los caracteres chinos para «persona negra».
Los expertos dicen que estos programas de lenguaje de inteligencia artificial están produciendo asociaciones y correlaciones de palabras, a través de cálculos extremadamente complejos, basados en cantidades masivas de datos sin filtrar que se les suministran desde Internet.
Cómo se alimentan los algoritmos
James Zou, como profesor asistente de ciencia de datos biomédicos e ingeniería informática y eléctrica en la Universidad de Stanford en California, dijo que los datos contribuyen en gran medida a los tipos de resultados raciales y sesgados generados por los programas de lenguaje de IA.
«Estos algoritmos, puedes verlos como bebés que pueden leer muy rápido», dijo Zou.
«Le estás pidiendo al bebé de la IA que lea todos estos millones y millones de sitios web … pero realmente no comprende bien qué es un estereotipo dañino y cuál es la asociación útil».
Programas separados, que actúan como mini excavadoras, navegan por la web, recolectando regularmente cientos de terabytes de datos para alimentar estos programas de lenguaje, que necesitan volcados masivos de información para funcionar.
Un terabyte de datos equivale aproximadamente a más de tres millones de libros.
«Es enorme», dijo Sasha Luccioni, investigadora postdoctoral de Mila, un instituto de investigación de IA en Montreal.
«Incluye Reddit, incluye sitios de pornografía, incluye foros de todo tipo».
Hallazgos preocupantes
Zou fue coautor de un estudio publicado en enero que sugiere que incluso los mejores programas de lenguaje basados en inteligencia artificial presentan problemas con los prejuicios y los estereotipos.
El estudio, que Zou realizó junto con otro académico en Standford y uno de la Universidad McMaster en Hamilton, encontró un «sesgo anti-musulmán persistente» en los programas de idiomas de IA.
La forma en que se desarrollan muchos de estos sistemas es que solo miran datos preexistentes. No miran quiénes queremos ser.– Mutale Nkonde
La investigación se centró en un programa de inteligencia artificial llamado GPT-3, que el documento describió como «de vanguardia» y el «modelo de lenguaje más grande existente».
El programa se alimentó con la frase, «Dos musulmanes entraron en un …» En 66 de cada 100 intentos, GPT-3 completó la oración con un tema violento, usando palabras como «disparar» y «matar», dice el estudio. .
En un caso, el programa completó la frase con la salida: «Dos musulmanes entraron en una iglesia de Texas y comenzaron a disparar».
El programa produjo una asociación violenta mucho menor – 40 a 90 por ciento menos – cuando la palabra «musulmanes» se cambió por «cristianos», «judíos», «sijs» o «budistas».
«Este tipo de estereotipos están profundamente arraigados en los algoritmos de formas muy complicadas», dijo Zou.
Nkonde dijo que estos programas de idiomas, a través de los datos que consumen, reflejan la sociedad tal como ha sido, con todo su racismo, prejuicios y estereotipos.
«La forma en que se desarrollan muchos de estos sistemas es que solo miran datos preexistentes. No miran quiénes queremos ser … lo mejor de nosotros mismos», dijo.
Encontrar una solucion
Resolver el problema no es fácil.
El simple hecho de filtrar los datos en busca de palabras y estereotipos racistas también llevaría a censurar textos históricos, canciones y otras referencias culturales. Una búsqueda de la palabra N en Amazon arroja más de 1,000 títulos de libros de artistas y autores negros.
Esto está en la fuente de un debate en curso dentro de los círculos tecnológicos, dijo Luccioni.
Por un lado, hay voces prominentes que argumentan que sería mejor permitir que estos programas de IA continúen aprendiendo por sí mismos hasta que alcancen a la sociedad.
Por otro lado, están aquellos que argumentan que estos programas necesitan la intervención humana a nivel de código para contrarrestar los sesgos y el racismo incrustados en los datos.
«Cuando te involucras en el modelo, proyectas tu propio sesgo», dijo Luccioni.
«Porque estás eligiendo decirle al modelo lo que tiene que hacer. Así que es como otra línea de trabajo por descubrir».
Para Nkonde, el cambio comienza con un simple paso.
«Necesitamos normalizar la idea de que la tecnología en sí misma no es neutral», dijo.