Los neurocientíficos encuentran que el funcionamiento interno de los modelos de predicción de la siguiente palabra se asemeja a los de los centros de procesamiento del lenguaje en el cerebro

En los últimos años, los modelos de lenguaje de inteligencia artificial se han vuelto muy buenos en ciertas tareas. En particular, sobresalen en predecir la siguiente palabra en una cadena de texto; esta tecnología ayuda a los motores de búsqueda y las aplicaciones de mensajes de texto a predecir la siguiente palabra que vas a escribir.

La generación más reciente de modelos de lenguaje predictivo también parece aprender algo sobre el significado subyacente del lenguaje. Estos modelos no solo pueden predecir la palabra que viene a continuación, sino que también pueden realizar tareas que parecen requerir cierto grado de comprensión genuina, como la respuesta a preguntas, el resumen de documentos y la finalización de la historia.

Dichos modelos se diseñaron para optimizar el rendimiento de la función específica de predecir texto, sin intentar imitar nada sobre cómo el cerebro humano realiza esta tarea o entiende el lenguaje. Pero un nuevo estudio de neurocientíficos del MIT sugiere que la función subyacente de estos modelos se asemeja a la función de los centros de procesamiento del lenguaje en el cerebro humano.

Los modelos informáticos que funcionan bien en otros tipos de tareas del lenguaje no muestran esta similitud con el cerebro humano, lo que ofrece evidencia de que el cerebro humano puede usar la predicción de la siguiente palabra para impulsar el procesamiento del lenguaje.

«Cuanto mejor es el modelo para predecir la siguiente palabra, más se ajusta al cerebro humano», dice Nancy Kanwisher, profesora de neurociencia cognitiva Walter A. Rosenblith, miembro del Instituto McGovern de Investigación del Cerebro y del Centro de Cerebros del MIT. Minds and Machines (CBMM) y autor del nuevo estudio. «Es sorprendente que los modelos se ajusten tan bien, y sugiere muy indirectamente que tal vez lo que está haciendo el sistema de lenguaje humano es predecir lo que sucederá a continuación».

Joshua Tenenbaum, profesor de ciencia cognitiva computacional en el MIT y miembro del CBMM y del Laboratorio de Inteligencia Artificial del MIT (CSAIL); y Evelina Fedorenko, profesora asociada de neurociencia de desarrollo profesional Frederick A. y Carole J. Middleton y miembro del Instituto McGovern, son los autores principales del estudio, que aparece esta semana en el procedimientos de la Academia Nacional de Ciencias. Martin Schrimpf, un estudiante graduado del MIT que trabaja en CBMM, es el primer autor del artículo.

Haciendo predicciones

Los nuevos modelos de predicción de la siguiente palabra de alto rendimiento pertenecen a una clase de modelos denominados redes neuronales profundas. Estas redes contienen «nodos» computacionales que forman conexiones de diferente fuerza y capas que pasan información entre sí de maneras prescritas.

Durante la última década, los científicos han utilizado redes neuronales profundas para crear modelos de visión que pueden reconocer objetos tan bien como lo hace el cerebro de los primates. La investigación en el MIT también ha demostrado que la función subyacente de los modelos de reconocimiento de objetos visuales coincide con la organización de la corteza visual de los primates, aunque esos modelos informáticos no fueron diseñados específicamente para imitar el cerebro.

En el nuevo estudio, el equipo del MIT utilizó un enfoque similar para comparar los centros de procesamiento del lenguaje en el cerebro humano con modelos de procesamiento del lenguaje. Los investigadores analizaron 43 modelos de lenguaje diferentes, incluidos varios optimizados para la predicción de la siguiente palabra. Estos incluyen un modelo llamado GPT-3 (Transformador 3 preentrenado generativo), que, dado un aviso, puede generar texto similar al que produciría un humano. Otros modelos fueron diseñados para realizar diferentes tareas de lenguaje, como llenar un espacio en blanco en una oración.

Como cada modelo se presentó con una serie de palabras, los investigadores midieron la actividad de los nodos que componen la red. Luego compararon estos patrones con la actividad en el cerebro humano, medida en sujetos que realizan tres tareas del lenguaje: escuchar historias, leer oraciones una a la vez y leer oraciones en las que se revela una palabra a la vez. Estos conjuntos de datos humanos incluyeron datos de resonancia magnética funcional (fMRI) y mediciones electrocorticográficas intracraneales tomadas en personas sometidas a cirugía cerebral por epilepsia.

Descubrieron que los modelos de predicción de la siguiente palabra con mejor rendimiento tenían patrones de actividad que se parecían mucho a los observados en el cerebro humano. La actividad en esos mismos modelos también estaba altamente correlacionada con medidas de comportamiento humano, como la rapidez con la que las personas podían leer el texto.

«Descubrimos que los modelos que predicen bien las respuestas neuronales también tienden a predecir mejor las respuestas del comportamiento humano, en forma de tiempos de lectura. Y luego ambos se explican por el rendimiento del modelo en la predicción de la siguiente palabra. Este triángulo realmente conecta todo juntos «, dice Schrimpf.

Cambiador de juego

Una de las características computacionales clave de los modelos predictivos como GPT-3 es un elemento conocido como transformador predictivo unidireccional directo. Este tipo de transformador es capaz de hacer predicciones de lo que vendrá a continuación, basándose en secuencias anteriores. Una característica importante de este transformador es que puede hacer predicciones basadas en un contexto previo muy largo (cientos de palabras), no solo en las últimas palabras.

Los científicos no han encontrado ningún circuito cerebral o mecanismo de aprendizaje que corresponda a este tipo de procesamiento, dice Tenenbaum. Sin embargo, los nuevos hallazgos son consistentes con las hipótesis que se han propuesto previamente de que la predicción es una de las funciones clave en el procesamiento del lenguaje, dice.

«Uno de los desafíos del procesamiento del lenguaje es su aspecto en tiempo real», dice. «El lenguaje entra, y tienes que seguirle el ritmo y ser capaz de encontrarle sentido en tiempo real».

Los investigadores ahora planean construir variantes de estos modelos de procesamiento de lenguaje para ver cómo los pequeños cambios en su arquitectura afectan su rendimiento y su capacidad para adaptarse a los datos neuronales humanos.

«Para mí, este resultado ha cambiado las reglas del juego», dice Fedorenko. «Está transformando totalmente mi programa de investigación, porque no habría predicho que en mi vida llegaríamos a estos modelos computacionalmente explícitos que capturan lo suficiente sobre el cerebro para que podamos aprovecharlos para comprender cómo funciona el cerebro».

Los investigadores también planean intentar combinar estos modelos de lenguaje de alto rendimiento con algunos modelos de computadora que el laboratorio de Tenenbaum ha desarrollado previamente y que pueden realizar otros tipos de tareas, como construir representaciones perceptivas del mundo físico.

«Si somos capaces de entender lo que hacen estos modelos de lenguaje y cómo pueden conectarse con modelos que hacen cosas que se parecen más a percibir y pensar, entonces eso puede darnos modelos más integradores de cómo funcionan las cosas en el cerebro», dice Tenenbaum. . «Esto podría llevarnos hacia mejores modelos de inteligencia artificial, además de brindarnos mejores modelos de cómo funciona más parte del cerebro y cómo surge la inteligencia general, que los que hemos tenido en el pasado».

La investigación fue financiada por una beca Takeda; la beca MIT Shoemaker Fellowship; la Corporación de Investigación de Semiconductores; los Consorcios del Laboratorio de Medios del MIT; la beca MIT Singleton Fellowship; la Beca de Posgrado Presidencial del MIT; la Beca Amigos del Instituto McGovern; el MIT Center for Brains, Minds, and Machines, a través de la National Science Foundation; los Institutos Nacionales de Salud; Departamento de Ciencias Cognitivas y Cerebrales del MIT; y el Instituto McGovern.

Otros autores del artículo son Idan Blank PhD ’16 y los estudiantes graduados Greta Tuckute, Carina Kauf y Eghbal Hosseini.