Un nuevo estudio muestra cómo los grandes modelos de lenguaje como GPT-3 pueden aprender una nueva tarea a partir de unos pocos ejemplos, sin necesidad de nuevos datos de entrenamiento - ScienceDaily

Los grandes modelos de lenguaje como GPT-3 de OpenAI son redes neuronales masivas que pueden generar texto similar al humano, desde poesía hasta código de programación. Estos modelos de aprendizaje automático, entrenados con gran cantidad de datos de Internet, toman una pequeña cantidad de texto de entrada y luego predicen el texto que probablemente vendrá a continuación.

Pero eso no es todo lo que estos modelos pueden hacer. Los investigadores están explorando un fenómeno curioso conocido como aprendizaje en contexto, en el que un modelo de lenguaje grande aprende a realizar una tarea después de ver solo unos pocos ejemplos, a pesar de que no fue entrenado para esa tarea. Por ejemplo, alguien podría proporcionarle al modelo varias oraciones de ejemplo y sus sentimientos (positivos o negativos), luego sugerirle una nueva oración y el modelo puede dar el sentimiento correcto.

Por lo general, un modelo de aprendizaje automático como GPT-3 necesitaría volver a entrenarse con nuevos datos para esta nueva tarea. Durante este proceso de entrenamiento, el modelo actualiza sus parámetros a medida que procesa nueva información para aprender la tarea. Pero con el aprendizaje en contexto, los parámetros del modelo no se actualizan, por lo que parece que el modelo aprende una nueva tarea sin aprender nada en absoluto.

Científicos del MIT, Google Research y la Universidad de Stanford se esfuerzan por desentrañar este misterio. Estudiaron modelos que son muy similares a los modelos de lenguaje grande para ver cómo pueden aprender sin actualizar los parámetros.

Los resultados teóricos de los investigadores muestran que estos modelos masivos de redes neuronales son capaces de contener modelos lineales más pequeños y simples enterrados en su interior. Luego, el modelo grande podría implementar un algoritmo de aprendizaje simple para entrenar a este modelo lineal más pequeño para completar una nueva tarea, utilizando solo la información que ya está contenida en el modelo más grande. Sus parámetros permanecen fijos.

Un paso importante hacia la comprensión de los mecanismos detrás del aprendizaje en contexto, esta investigación abre la puerta a una mayor exploración de los algoritmos de aprendizaje que estos grandes modelos pueden implementar, dice Ekin Akyürek, estudiante de posgrado en informática y autor principal de un artículo que explora este fenómeno. Con una mejor comprensión del aprendizaje en contexto, los investigadores podrían permitir que los modelos completen nuevas tareas sin la necesidad de una costosa capacitación.

«Por lo general, si desea afinar estos modelos, necesita recopilar datos específicos del dominio y hacer una ingeniería compleja. Pero ahora podemos simplemente alimentarlo con una entrada, cinco ejemplos, y logra lo que queremos. Así que in- el aprendizaje contextual es un fenómeno bastante emocionante», dice Akyürek.

Junto a Akyürek en el artículo están Dale Schuurmans, científico investigador de Google Brain y profesor de informática en la Universidad de Alberta; así como los autores principales Jacob Andreas, profesor asistente del X Consortium en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL); Tengyu Ma, profesor asistente de informática y estadística en Stanford; y Danny Zhou, científico principal y director de investigación de Google Brain. La investigación será presentada en la Conferencia Internacional sobre Representaciones de Aprendizaje.

Un modelo dentro de un modelo

En la comunidad de investigación del aprendizaje automático, muchos científicos han llegado a creer que los grandes modelos de lenguaje pueden realizar un aprendizaje en contexto debido a la forma en que están entrenados, dice Akyürek.

Por ejemplo, GPT-3 tiene cientos de miles de millones de parámetros y se entrenó leyendo grandes extensiones de texto en Internet, desde artículos de Wikipedia hasta publicaciones de Reddit. Entonces, cuando alguien muestra los ejemplos del modelo de una nueva tarea, es probable que ya haya visto algo muy similar porque su conjunto de datos de entrenamiento incluía texto de miles de millones de sitios web. Repite patrones que ha visto durante el entrenamiento, en lugar de aprender a realizar nuevas tareas.

Akyürek planteó la hipótesis de que los aprendices en contexto no solo coinciden con patrones vistos anteriormente, sino que en realidad están aprendiendo a realizar nuevas tareas. Él y otros habían experimentado dando indicaciones a estos modelos utilizando datos sintéticos, que no podrían haber visto en ningún otro lugar antes, y descubrieron que los modelos aún podían aprender de unos pocos ejemplos. Akyürek y sus colegas pensaron que quizás estos modelos de redes neuronales tienen modelos de aprendizaje automático más pequeños dentro de ellos que los modelos pueden entrenar para completar una nueva tarea.

«Eso podría explicar casi todos los fenómenos de aprendizaje que hemos visto con estos grandes modelos», dice.

Para probar esta hipótesis, los investigadores utilizaron un modelo de red neuronal llamado transformador, que tiene la misma arquitectura que GPT-3, pero que había sido entrenado específicamente para el aprendizaje en contexto.

Al explorar la arquitectura de este transformador, demostraron teóricamente que puede escribir un modelo lineal dentro de sus estados ocultos. Una red neuronal se compone de muchas capas de nodos interconectados que procesan datos. Los estados ocultos son las capas entre las capas de entrada y salida.

Sus evaluaciones matemáticas muestran que este modelo lineal está escrito en algún lugar de las primeras capas del transformador. Luego, el transformador puede actualizar el modelo lineal implementando algoritmos de aprendizaje simples.

En esencia, el modelo simula y entrena una versión más pequeña de sí mismo.

Sondeando capas ocultas

Los investigadores exploraron esta hipótesis mediante experimentos de sondeo, en los que buscaron en las capas ocultas del transformador para tratar de recuperar una cierta cantidad.

«En este caso, tratamos de recuperar la solución real del modelo lineal y pudimos mostrar que el parámetro está escrito en los estados ocultos. Esto significa que el modelo lineal está en alguna parte», dice.

A partir de este trabajo teórico, los investigadores pueden permitir que un transformador realice aprendizaje en contexto agregando solo dos capas a la red neuronal. Todavía hay muchos detalles técnicos por resolver antes de que eso sea posible, advierte Akyürek, pero podría ayudar a los ingenieros a crear modelos que puedan completar nuevas tareas sin la necesidad de volver a capacitarse con nuevos datos.

En el futuro, Akyürek planea continuar explorando el aprendizaje en contexto con funciones que son más complejas que los modelos lineales que estudiaron en este trabajo. También podrían aplicar estos experimentos a grandes modelos de lenguaje para ver si sus comportamientos también se describen mediante algoritmos de aprendizaje simples. Además, quiere profundizar en los tipos de datos previos al entrenamiento que pueden permitir el aprendizaje en contexto.

«Con este trabajo, las personas ahora pueden visualizar cómo estos modelos pueden aprender de los ejemplares. Entonces, espero que cambie la visión de algunas personas sobre el aprendizaje en contexto», dice Akyürek. «Estos modelos no son tan tontos como la gente piensa. No solo memorizan estas tareas. Pueden aprender nuevas tareas, y hemos demostrado cómo se puede hacer eso».