El lanzamiento de modelos de lenguaje grande (LLM) siempre capaces, como GPT-3.5, ha despertado mucho interés en los últimos seis meses. Sin embargo, la confianza en estos modelos ha disminuido a medida que los usuarios han descubierto que pueden cometer errores y que, al igual que nosotros, no son perfectos.
Se dice que un LLM que genera información incorrecta es «alucinante», y ahora hay un esfuerzo de investigación cada vez mayor para minimizar este efecto. Pero mientras lidiamos con esta tarea, vale la pena reflexionar sobre nuestra propia capacidad de sesgo y alucinación, y cómo esto afecta la precisión de los LLM que creamos.
Al comprender el vínculo entre el potencial alucinatorio de la IA y el nuestro, podemos comenzar a crear sistemas de IA más inteligentes que, en última instancia, ayudarán a reducir el error humano.
Como alucina la gente
No es un secreto que la gente inventa información. A veces hacemos esto intencionalmente y otras veces sin querer. Este último es el resultado de sesgos cognitivos, o «heurísticas»: atajos mentales que desarrollamos a través de experiencias pasadas.
Estos atajos a menudo nacen de la necesidad. En un momento dado, solo podemos procesar una cantidad limitada de la información que inunda nuestros sentidos y solo recordar una fracción de toda la información a la que hemos estado expuestos.
Como tal, nuestros cerebros deben usar asociaciones aprendidas para llenar los vacíos y responder rápidamente a cualquier pregunta o dilema que se presente ante nosotros. En otras palabras, nuestros cerebros adivinan cuál podría ser la respuesta correcta basándose en un conocimiento limitado. Esto se llama «confabulación» y es un ejemplo de un sesgo humano.
Nuestros sesgos pueden resultar en un mal juicio. Tome el sesgo de automatización, que es nuestra tendencia a favorecer la información generada por sistemas automatizados (como ChatGPT) sobre la información de fuentes no automatizadas. Este sesgo puede llevarnos a perder errores e incluso actuar sobre información falsa.
Otra heurística relevante es el efecto halo, en el que nuestra impresión inicial de algo afecta nuestras interacciones posteriores con él. Y el sesgo de fluidez, que describe cómo favorecemos la información presentada de una manera fácil de leer.
La conclusión es que el pensamiento humano a menudo está teñido por sus propios sesgos y distorsiones cognitivas, y estas tendencias «alucinatorias» ocurren en gran medida fuera de nuestra conciencia.
Cómo alucina la IA
En un contexto LLM, alucinar es diferente. Un LLM no está tratando de conservar recursos mentales limitados para dar sentido al mundo de manera eficiente. «Alucinar» en este contexto simplemente describe un intento fallido de predecir una respuesta adecuada a una entrada.
Sin embargo, todavía hay cierta similitud entre cómo alucinan los humanos y los LLM, ya que los LLM también hacen esto para «llenar los vacíos».
Los LLM generan una respuesta al predecir qué palabra es más probable que aparezca a continuación en una secuencia, en función de lo que ha sucedido antes y de las asociaciones que el sistema ha aprendido a través del entrenamiento.
Al igual que los humanos, los LLM intentan predecir la respuesta más probable. A diferencia de los humanos, hacen esto sin entender lo que están diciendo. Así es como pueden terminar emitiendo tonterías.
En cuanto a por qué los LLM alucinan, hay una variedad de factores. Una de las principales es recibir capacitación sobre datos defectuosos o insuficientes. Otros factores incluyen cómo el sistema está programado para aprender de estos datos y cómo esta programación se refuerza a través de una mayor capacitación en humanos.
haciéndolo mejor juntos
Entonces, si tanto los humanos como los LLM son susceptibles a las alucinaciones (aunque por diferentes razones), ¿cuál es más fácil de solucionar?
Arreglar los datos y procesos de capacitación que sustentan los LLM puede parecer más fácil que arreglarnos a nosotros mismos. Pero esto no tiene en cuenta los factores humanos que influyen en los sistemas de IA (y es un ejemplo de otro sesgo humano conocido como error de atribución fundamental).
La realidad es que nuestras fallas y las fallas de nuestras tecnologías están inextricablemente entrelazadas, por lo que arreglar una ayudará a arreglar la otra. Aquí hay algunas maneras en que podemos hacer esto.
Manejo responsable de datos. Los sesgos en la IA a menudo se derivan de datos de entrenamiento sesgados o limitados. Las formas de abordar esto incluyen garantizar que los datos de entrenamiento sean diversos y representativos, crear algoritmos conscientes de los sesgos e implementar técnicas como el equilibrio de datos para eliminar patrones sesgados o discriminatorios.
Transparencia e IA explicable. Sin embargo, a pesar de las acciones anteriores, los sesgos en la IA pueden permanecer y pueden ser difíciles de detectar. Al estudiar cómo los sesgos pueden ingresar a un sistema y propagarse dentro de él, podemos explicar mejor la presencia de sesgos en los resultados. Esta es la base de la “IA explicable”, cuyo objetivo es hacer que los procesos de toma de decisiones de los sistemas de IA sean más transparentes.
Poner los intereses del público al frente y al centro. Reconocer, gestionar y aprender de los sesgos en una IA requiere responsabilidad humana y tener valores humanos integrados en los sistemas de IA. Lograr esto significa garantizar que las partes interesadas sean representativas de personas de diversos orígenes, culturas y perspectivas.
Al trabajar juntos de esta manera, es posible que construyamos sistemas de inteligencia artificial más inteligentes que pueden ayudar a controlar todas nuestras alucinaciones.
Por ejemplo, la IA se está utilizando en el cuidado de la salud para analizar las decisiones humanas. Estos sistemas de aprendizaje automático detectan inconsistencias en los datos humanos y brindan indicaciones que las llaman la atención del médico. Como tal, las decisiones de diagnóstico se pueden mejorar mientras se mantiene la responsabilidad humana.
En un contexto de redes sociales, la IA se utiliza para ayudar a capacitar a moderadores humanos cuando intentan identificar abusos, como a través del proyecto Troll Patrol destinado a abordar la violencia en línea contra las mujeres.
En otro ejemplo, la combinación de imágenes satelitales e IA puede ayudar a los investigadores a analizar las diferencias en la iluminación nocturna entre regiones y usar esto como un indicador de la pobreza relativa de un área (donde más iluminación se correlaciona con menos pobreza).
Es importante destacar que, mientras hacemos el trabajo esencial de mejorar la precisión de los LLM, no debemos ignorar cómo su falibilidad actual es un espejo de la nuestra.