Evaluación del sesgo político en los modelos lingüísticos

Los modelos de lenguaje detrás de ChatGPT y otra IA generativa se entrenan en palabras escritas que se seleccionaron de bibliotecas, se extrajeron de sitios web y redes sociales, y se extrajeron de informes de noticias y transcripciones de discursos de todo el mundo. Hay 250 mil millones de palabras de este tipo detrás de GPT-3.5, el modelo que alimenta a ChatGPT, por ejemplo, y GPT-4 ya está aquí.

Ahora nueva investigación de la Universidad de Stanford ha cuantificado exactamente qué tan bien (o, en realidad, qué tan mal) estos modelos se alinean con las opiniones de los grupos demográficos de los EE.

“Ciertos modelos de lenguaje no logran captar las sutilezas de la opinión humana y, a menudo, simplemente expresan el punto de vista dominante de ciertos grupos, mientras que subrepresentan los de otros subgrupos demográficos”, dice Shibani Santurkar, ex becario postdoctoral en Stanford y primer autor del estudio. “Deberían estar más alineados”.

En el artículo, un equipo de investigación que incluye a la estudiante postdoctoral de Stanford Esin Durmus, el estudiante de doctorado de Columbia Faisal Ladhak, el estudiante de doctorado de Stanford Cinoo Lee y los profesores de informática de Stanford Percy Liang y Tatsunori Hashimoto presenta OpinionQA, una herramienta para evaluar el sesgo en los modelos de lenguaje. OpinionQA compara las tendencias de los modelos lingüísticos con las encuestas de opinión pública.

Lea el estudio completo, ¿De quién son las opiniones que reflejan los modelos lingüísticos?

Como era de esperar, los modelos de lenguaje que forman oraciones al predecir secuencias de palabras basadas en lo que otros han escrito debería reflejan automáticamente la opinión popular en el sentido más amplio. Pero, dice Santurkar, hay otras dos explicaciones para el sesgo. La mayoría de los modelos más nuevos se han ajustado con precisión en los datos de retroalimentación humana recopilados por empresas que contratan anotadores para anotar qué modelos completos son «buenos» o «malos». Las opiniones de los comentaristas e incluso las de las propias empresas pueden filtrarse en los modelos.

Por ejemplo, el estudio muestra cómo los modelos más nuevos tienen una aprobación superior al 99 por ciento para el presidente Joe Biden, a pesar de que las encuestas de opinión pública muestran un panorama mucho más mixto. En su trabajo, los investigadores también encontraron que algunas poblaciones están subrepresentadas en los datos: los mayores de 65 años, los mormones y las viudas y viudos, solo por nombrar algunos. Los autores afirman que para mejorar la credibilidad, los modelos de lenguaje deberían reflejar mejor los matices, las complejidades y las estrechas divisiones de la opinión pública.

Alinearse a la opinión pública

El equipo recurrió a American Trends Panels (ATP) de Pew Research, una encuesta de referencia de la opinión pública, para evaluar nueve modelos lingüísticos líderes. El ATP tiene casi 1500 preguntas sobre una amplia gama de temas, que van desde la ciencia y la política hasta las relaciones personales. OpinionQA compara la distribución de opiniones del modelo lingüístico en cada pregunta con la de la población general de los EE. UU., así como con las opiniones de no menos de 60 subgrupos demográficos, según los gráficos de la ATP.

“Estas encuestas son realmente útiles porque están diseñadas por expertos que identifican temas de interés público y diseñan cuidadosamente las preguntas para capturar los matices de un tema determinado”, dice Santurkar. “También utilizan preguntas de opción múltiple, que evitan ciertos problemas para medir la opinión con preguntas abiertas”.

A partir de esas comparaciones, OpinionQA calcula tres métricas de alineación de opiniones. Primero, representatividad evalúa qué tan alineado está un modelo lingüístico con la población general, así como con las 60 secciones transversales demográficas que usa ATP. Segundo, manejabilidad tabula qué tan bien el modelo puede reflejar la opinión de un subgrupo dado cuando se le solicita que lo haga. Y tercero, consistencia predice qué tan constantes son las opiniones de un modelo en todos los temas y en el tiempo.

Amplia variacion

¿Hallazgos de alto nivel? Todos los modelos muestran una amplia variación en las tendencias políticas y de otro tipo según los ingresos, la edad, la educación, etc. En su mayor parte, dice Santurkar, los modelos entrenados solo en Internet tienden a estar sesgados hacia puntos de vista menos educados, de bajos ingresos o conservadores. Los modelos más nuevos, por otro lado, refinados aún más a través de comentarios humanos curados, tienden a estar sesgados hacia audiencias más liberales, con mayor educación y de mayores ingresos.

“No estamos diciendo si es bueno o malo aquí”, dice Santurkar. “Pero es importante proporcionar visibilidad tanto a los desarrolladores como a los usuarios de que tales sesgos existen”.

Reconociendo que hacer coincidir exactamente las opiniones del público en general podría representar un objetivo problemático en sí mismo, los desarrolladores de OpinionQA advierten que su enfoque es una herramienta para ayudar a los desarrolladores a evaluar los sesgos políticos en sus modelos, no un punto de referencia de resultados óptimos.

“El conjunto de datos de OpinionQA no es un punto de referencia que deba optimizarse. Es útil para identificar y cuantificar dónde y cómo los modelos de lenguaje no están alineados con la opinión humana y cómo los modelos a menudo no representan adecuadamente a ciertos subgrupos”, dice Santurkar. “En términos más generales, esperamos que pueda generar una conversación en el campo sobre la importancia y el valor de alinear mejor los modelos lingüísticos con la opinión pública”.

La misión de Stanford HAI es promover la investigación, la educación, las políticas y la práctica de la IA para mejorar la condición humana. Aprende más.