Una mirada crítica a los elementos básicos de un modelo predictivo

Los agentes de policía de México vigilan las imágenes de las cámaras de vigilancia que aparecen en varios monitores grandes.

Vivimos en una época en la que los grandes pronósticos de datos están en todas partes. Alrededor del mundo, los científicos están reuniendo enormes conjuntos de datos para entender todo, desde la propagación de COVID-19 hasta los hábitos de compra online de los consumidores. Sin embargo, a medida que proliferan los modelos para predecir eventos futuros, pocas personas entienden el funcionamiento interno o las suposiciones de estos modelos. Todos los sistemas de previsión tienen puntos débiles, y cuando se utilizan para la elaboración de políticas y la planificación, pueden tener consecuencias drásticas en la vida de las personas. Sólo por esta razón, es imperativo que empecemos a mirar la ciencia detrás de los algoritmos.

Examinando uno de esos sistemas, es posible comprender cómo el uso aparentemente inocuo de teorías, suposiciones o modelos está abierto a una aplicación errónea.

A partir de 2012, un sistema llamado Reconocimiento Temprano de Eventos Basado en Modelos usando Sustitutos (EMBERS) fue desarrollado por equipos de académicos de más de 10 instituciones para pronosticar eventos, tales como disturbios civiles, brotes de enfermedades y resultados electorales en nueve países latinoamericanos para el programa de Indicadores de Código Abierto (OSI) de la Agencia de Proyectos de Investigación Avanzada en Inteligencia (IARPA).[1] Si bien se trataba sólo de una actividad de investigación, se desplegó durante varios años y se amplió más allá de su enfoque inicial en América Latina para incluir a países del Oriente Medio y el África septentrional.[2]

EMBERS es un modelo de previsión basado en eventos. Recupera datos de fuentes como Twitter, periódicos e informes gubernamentales y estima las probabilidades de que ocurran tipos de eventos -como disturbios civiles, brotes de enfermedades y resultados electorales- en lugares y horizontes temporales concretos.

Aunque no podemos discutir completamente la totalidad de la arquitectura de EMBERS aquí, esta narración llamará la atención sobre uno de sus subcomponentes clave. Este subcomponente intenta atribuir puntuaciones de sentimiento al texto ingerido y procesado por el modelo. En otras palabras, la inteligencia artificial (IA) que procesa el lenguaje natural produce una puntuación del afecto emocional relativo del texto. Para entender el sentimiento del material que analiza, EMBERS se basa en un léxico llamado Normas Afectivas para las Palabras en Inglés [ANEW].

Sin embargo, confiando en ANEW, los diseñadores de EMBERS construyeron un castillo de naipes listo para derrumbarse a la menor brisa de diferencia cultural. Veamos por qué.

ANEW fue creado por Margaret Bradley y Peter Lang en la Universidad de Florida en 1999 y fue diseñado para proporcionar alguna métrica del efecto emocional (cuánto placer, dominio o excitación conlleva una palabra en particular) a una gama de palabras. Para lograr esto, Bradley y Lang encuestaron a un grupo de estudiantes universitarios para que dieran sus respuestas a un conjunto de 100 a 150 palabras en inglés. Se les mostraron las palabras y se les pidió que dieran su reacción rellenando burbujas en una escala del 1 al 9 con las cifras correspondientes que iban desde una sonrisa hasta un ceño fruncido. Se sumaron las puntuaciones de cada palabra, y la media se usó como la puntuación de «el sentimiento» de esa palabra.

¿Cuánto peso queremos poner en el léxico de ANEW para determinar los resultados de los sentimientos de los EMBERS?

Bueno, veamos el diseño de la investigación, la metodología y los hallazgos que Bradley y Lang proporcionan. Primero, el punto obvio es que el léxico fue originalmente diseñado para Inglés. Si bien el léxico puede ciertamente ser traducido, esas traducciones pueden, de hecho, no tener el mismo significado, peso o efecto en diferentes poblaciones o dialectos.[3] De hecho, hay varios estudios que han demostrado que las traducciones de ANEW no proporcionan las mismas puntuaciones o significados.

En segundo lugar, los experimentos se llevaron a cabo en estudiantes de psicología introductoria en la Universidad de Florida como parte de un requisito del curso. En resumen, la población utilizada para generalizar el sentimiento de las poblaciones de varios continentes diferentes era un grupo de estudiantes de 18 a 22 años de edad con todas las particularidades demográficas, culturales y lingüísticas de ese grupo. Este grupo de encuestados no era en modo alguno representativo de todos los pueblos anglófonos, y mucho menos de los no anglófonos del sur global.

Por ejemplo, cuando examinamos las puntuaciones de las palabras del léxico del ANEW, las preferencias de un grupo de estudiantes universitarios americanos se muestran inmediatamente. «Diploma» y «graduado» obtienen algunas de las puntuaciones más altas del léxico. Otras puntuaciones altas se alinean con los valores de la democracia liberal occidental, el capitalismo, el cristianismo, la heternormatividad y la educación.

Las palabras proporcionadas a los estudiantes también indican parcialidad. Los términos religiosos usados en el léxico se refieren a la fe cristiana: Navidad, ángel, cielo, infierno, iglesia, demonio, Dios, salvador, diablo, etc. Ningún término del léxico se refiere a otras creencias o sistemas de creencias. El sesgo de género también aparece presente: 12 palabras se aplican o asocian con las mujeres (vagina, prostituta, puta, esposa, mujer, niña, madre, violación, pecho, aborto, lesbiana, novia), mientras que cinco palabras son para los hombres (pene, hombre, hermano, padre, niño).[4] Parece haber al menos un sesgo en cuanto a la omisión de palabras correspondientes al léxico.

El viejo adagio de «basura que entra, basura que sale» se aplica claramente, pero lo más alarmante no son los problemas de ANEW sino el hecho de que los diseñadores de EMBERS decidieron usar el léxico en primer lugar. Esos diseñadores no se tomaron el tiempo de investigar si el léxico de ANEW era apropiado para sus propósitos o para cuestionar si las múltiples traducciones de ANEW a lo largo de los años mostraron realmente que existen diferencias significativas entre las culturas y las poblaciones, a pesar del sesgo ya existente del propio instrumento de estudio.

La arquitectura del sistema de EMBERS puede ser computacionalmente exquisita y novedosa en la forma en que analiza un diverso y alto volumen de datos, pero puede no importar si la ciencia detrás de los datos es dudosa. Esto podría ser por una variedad de razones, como que los supuestos implícitos en los modelos no se consideran cuidadosamente, o que la causalidad en las ciencias sociales, y por lo tanto la predicción, es esquiva. En tales casos, el análisis puede, en el mejor de los casos, estar fuera de lugar y, en el peor, proporcionará a los responsables de la adopción de decisiones información incorrecta para formular sus intervenciones de política.

Se podría argumentar que este análisis es injusto para EMBERS o que no es social o políticamente significativo. Sin embargo, como hemos visto una y otra vez, los sistemas analíticos predictivos, que dependen de sistemas de IA cada vez más complejos, no siempre son precisos o correctos, y de hecho pueden ser bastante perjudiciales. Para los encargados de la formulación de políticas, los analistas de política exterior y otras personas que dependen de las previsiones de sistemas que pueden tener graves consecuencias para la política exterior, lo que está en juego puede ser aún mayor, por lo que también debemos estar igualmente atentos al examen de esos sistemas.

Heather M. Roff es analista principal de investigación en el Laboratorio de Física Aplicada de la Universidad Johns Hopkins, becaria no residente en Política Exterior de la Institución Brookings y becaria asociada del Centro Leverhulme para el Futuro de la Inteligencia de la Universidad de Cambridge.

[1] Doyle, Andy. Graham Katz, Kristen Summers, Chris Ackermann, Illya Zavorin, Zunsik Lim, Sathappan Muthiah, Patrick Butler, Nathan Self, Liang Zhao, Chang-Tien Lu, Rupinder Paul Khandpur, Youssef Fayed, Naren Ramakrishnan. (2014). «Pronosticando eventos sociales significativos usando el sistema de análisis predictivo Embers Streaming». Big Data. Mary Ann Liebert, Inc. Vol. 2, No. 4 (Diciembre): 185-195. Doyle, Andy. Graham Katz, Kristen Summers, Chris Ackermann, Illya Zavorin, Zunsik Lim, Sathappan Muthiah, Patrick Butler, Nathan Self, Liang Zhao, Chang-Tien Lu, Rupinder Paul Khandpur, Youssef Fayed, Naren Ramakrishnan. (2014). «La Arquitectura EMBERS para el Análisis Predictivo de Flujo» Conferencia Internacional del IEEE sobre Grandes Datos. Gupta, Dipak. Sathappan Muthiah, David Mares, Naren Ramakrishnan. (2017). «Previsión de conflictos civiles»: An Emerging Methodology» Tercera Conferencia Internacional sobre Análisis Humano y Social. Saraf, Parang y Naren Ramakrishnan. (2016). «EMBERS AutoGSR: Codificación Automatizada de Eventos de Disturbios Civiles» Actas del 22^y ACM SIGKDD Conferencia Internacional de Descubrimiento de Conocimiento y Datos (Agosto): 599-608.

[2] Los EMBERS originalmente miraron a Argentina, Brasil, Chile, Colombia, Ecuador, El Salvador, México, Paraguay y Venezuela.

[3] En 2007, varios académicos tradujeron el léxico del ANEW al español y realizaron su propio análisis. Al igual que Bradly y Lang, ellos también tomaron muestras de estudiantes universitarios, pero de varias universidades españolas. Sin embargo, su muestra se limitó una vez más a un grupo demográfico y un dialecto determinados, y su muestra estuvo excesivamente representada por mujeres (560 mujeres y 160 hombres). Los autores también encontraron «notables» diferencias estadísticas entre las versiones traducidas del ANEW y la versión original. En resumen, y no es sorprendente, hay mucha diferencia emocional entre el español y el inglés. Cf. Redondo, Jaime, Isabel Fraga, Isabel Padrón, Montserrat Comesaña. 2007. «La adaptación española de ANEW (Normas afectivas para palabras en inglés)» Métodos de investigación del comportamientoVol. 39, no. 3: 600-605. En un estudio posterior (2012) se tradujo ANEW al portugués europeo, prestando mayor atención a la representatividad lingüística de sus encuestados. Sin embargo, este estudio también se basó en estudiantes universitarios y de posgrado. Ellos también encontraron diferencias estadísticamente significativas en su población con respecto a los estudios americanos y españoles después de la traducción, y en algunos casos ni siquiera pudieron traducir algunas de las palabras en inglés para retener el mismo significado. Cf: Soares, Ana Paula, Montserrat Comesaña, Ana P. Pinheiro, Alberto Simões, Carla Sofia Frade. 2012. «La adaptación de las normas afectivas para las palabras inglesas (ANEW) para el portugués europeo» Métodos de investigación del comportamientoVol. 44: 256-269. Sin embargo, incluso tomando estas dos traducciones todavía limitaría su generalizabilidad a América Latina.

[4] Por ejemplo, cuando se les preguntó cuánto placer provocaba la palabra «lesbiana», las estudiantes clasificaron la palabra con un 3,38. Cuando se les preguntó a los estudiantes masculinos lo mismo, respondieron con una puntuación media de 6,00. De la misma manera, la palabra «puta» fue calificada por las estudiantes femeninas con un 1,61, mientras que sus homólogos masculinos la calificaron con un 3,92.