Cuando fue lanzado por Google hace solo unos años, un modelo de aprendizaje profundo llamado BERT demostró un gran paso adelante en el procesamiento del lenguaje natural (NLP). La estructura central de BERT, basada en un tipo de red neuronal conocida como Transformer, se ha convertido en la base de una variedad de aplicaciones de PNL, desde completar consultas de búsqueda y oraciones escritas por el usuario hasta la traducción de idiomas.
Los modelos incluso obtienen buenos puntajes en los puntos de referencia destinados a evaluar la comprensión a un nivel de escuela secundaria, como la comprensión de lectura a gran escala (RACE) desarrollado en la Universidad Carnegie Mellon. Al hacerlo, se han convertido en herramientas de marketing en la fiebre del oro de la inteligencia artificial (IA). En la conferencia anual de tecnología de Nvidia, el presidente y director ejecutivo Jen-Hsun Huang utilizó RACE para reclamar un alto rendimiento en la implementación de BERT de su empresa.
«El ser humano promedio obtuvo una puntuación del 73%. Los humanos expertos puntuaron el 95%. Megatron-BERT de Nvidia obtuvo una puntuación del 91%», dijo Huang, y agregó: «Facebook AI Research desarrolló un chatbot basado en Transformer con el conocimiento, la personalidad y la empatía que la mitad de los usuarios probado en realidad preferido [over humans]. «
El rendimiento subió otro nivel con el lanzamiento de GPT-3 en el verano de 2020, la última versión de una serie de modelos de lenguaje desarrollados por la empresa OpenAI. Con 175 mil millones de parámetros entrenables, GPT-3 es 500 veces más grande que la versión más grande de BERT.
El tamaño le ha dado a GPT-3 habilidades aparentemente impresionantes. Mientras que la mayoría de los otros sistemas basados en Transformer necesitan una secuencia de entrenamiento que «ajuste» las últimas capas de la tubería de red neuronal profunda (DNN) para adaptarse a una aplicación específica, como la traducción de idiomas, OpenAI promete que GPT-3 puede prescindir de la necesidad de un gran ajuste debido al gran tamaño de su conjunto de entrenamiento básico.
Las pruebas han demostrado la capacidad de GPT-3 para elaborar ensayos extensos en respuesta a breves indicaciones. Sin embargo, el enorme sistema tiene fallas que son fáciles de mostrar. Las preguntas a GPT-3 a menudo pueden producir respuestas de un surrealismo casi de pesadilla, afirmando en un caso que las briznas de hierba tienen ojos, o en otras situaciones que un caballo tiene cuatro ojos. El propio equipo de investigación de OpenAI cuestionó los límites de los enormes modelos entrenados exclusivamente para el modelado del lenguaje en un artículo publicado poco después del lanzamiento de GPT-3.
La clave del rendimiento de estos modelos de lenguaje parece depender de su capacidad para capturar y organizar información a veces contradictoria extraída de enormes colecciones de texto que incluyen fuentes como Wikipedia y el sitio de redes sociales Reddit. Los primeros enfoques utilizaban la incrustación de palabras, en la que cada palabra discreta se convierte en un vector numérico mediante un algoritmo de agrupación. Las palabras que lo rodean más comúnmente en el corpus utilizado para el entrenamiento determinan los valores del vector. Pero estos enfoques tienen problemas porque no pueden eliminar la ambigüedad de palabras con múltiples significados.
Las redes dentro de BERT tienen en cuenta los significados flexibles de las palabras. Usan múltiples capas de construcciones de redes neuronales llamadas Transformers para asignar vectores no a palabras separadas, sino a palabras y subpalabras en diferentes contextos que el modelo encuentra al escanear el conjunto de entrenamiento.
Aunque los Transformers asocian palabras y sus raíces con diferentes contextos, lo que queda lejos de estar claro es qué relaciones entre las palabras y el contexto realmente aprenden. Esta incertidumbre ha generado lo que la profesora asistente de la Universidad de Massachusetts Lowell, Anna Rumshisky y sus colegas, denominaron «BERTología». BERT es un enfoque particular en investigaciones como esta porque su código fuente está disponible, mientras que el GPT-3, mucho más grande, solo es accesible a través de una API.
Una inspección más cercana de sus respuestas muestra que lo que estos sistemas carecen claramente es cualquier comprensión de cómo funciona el mundo, lo cual es vital para muchas de las aplicaciones más avanzadas en las que están comenzando a ser empujados. En la práctica, en su mayoría hacen asociaciones basadas en la proximidad de palabras en el material de formación; como resultado, los modelos basados en Transformer a menudo obtienen información básica incorrecta.
Por ejemplo, Ph.D. El estudiante Bill Yuchen Lin y sus compañeros de trabajo en el grupo de Xiang Ren en la Universidad del Sur de California (USC) desarrollaron un conjunto de pruebas para sondear la capacidad de los modelos de lenguaje para dar respuestas sensatas a preguntas sobre números. BERT afirma que un pájaro tiene el doble de probabilidad de tener cuatro patas en lugar de dos. También puede dar respuestas contradictorias. Aunque BERT pondrá una gran confianza en un automóvil de cuatro ruedas, si la declaración está calificada para «ruedas redondas», el modelo afirma que es más probable que tenga solo dos.
La toxicidad y los sesgos no deseados son problemas adicionales para los modelos de lenguaje, particularmente cuando se integran en chatbots que podrían usarse para apoyo emocional: regurgitan fácilmente declaraciones ofensivas y hacen asociaciones que tienden a reforzar los prejuicios. El trabajo de Yejin Choi y sus colegas del Allen Institute for AI ha indicado que un problema importante radica en las señales sutiles en las grandes bases de texto utilizadas para el entrenamiento que pueden incluir fuentes como Reddit. Sin embargo, incluso entrenando solo en los problemas de programas de Wikipedia más fuertemente vigilados.
«Desinfectar el contenido será muy deseable, pero puede que no sea del todo posible debido a las sutilezas del lenguaje potencialmente tóxico», dice Choi.
Una forma de mejorar la calidad de los resultados es brindar a los modelos de lenguaje una mejor comprensión de cómo funciona el mundo capacitándolos en conceptos de «sentido común». Esto no se puede lograr simplemente dándoles conjuntos de entrenamiento más grandes. Choi señala el problema de que la capacitación en texto convencional adolece de sesgos en los informes: incluso las fuentes enciclopédicas no describen mucho de cómo funciona el mundo que nos rodea. Peor aún, fuentes como las noticias, que respaldan gran parte del contenido de Reddit y Wikipedia, expresan excepciones con más frecuencia que la norma. Gran parte del conocimiento previo simplemente lo asumen los humanos; para enseñar a las máquinas, este trasfondo requiere otras fuentes.
Choi señala el problema de que la capacitación en texto convencional adolece de sesgos en los informes; incluso las fuentes enciclopédicas no describen mucho de cómo funciona el mundo que nos rodea.
Una posible fuente de conocimiento de sentido común es una base de conocimiento, que debe construirse a mano. Una fuente existente que algunos equipos han utilizado es ConceptNet, pero está lejos de ser completa.
«Necesitamos saber por qué y cómo», señala Choi, mientras que la mayoría de los elementos de ConceptNet suelen describir las relaciones «es un» o «es parte de». Para obtener la información necesaria, el grupo reunió la información que querían para su propia base de conocimientos atómicos. Optaron por construir una nueva base de conocimientos en lugar de ampliar ConceptNet, en parte porque enfocaba el ajuste en aspectos del comportamiento y la motivación sin información potencialmente extraña, pero también porque Atomic se expresa en forma de lenguaje natural, por lo que el conocimiento puede ser más fácil ser procesado por BERT. Las representaciones simbólicas de ConceptNet deben convertirse al formato de lenguaje natural mediante plantillas.
Sin embargo, no está claro si el diseño de la red neuronal Transformer en sí proporciona una estructura adecuada para representar el conocimiento que intenta almacenar. Dice Antoine Bosselut, investigador postdoctoral de la Universidad de Stanford, «Es una de las preguntas más interesantes para responder en este espacio. Todavía no sabemos exactamente cómo se codifica el conocimiento de sentido común. Y no sabemos cómo se codifican las propiedades lingüísticas. «
Para mejorar las habilidades de los modelos de lenguaje, Tetsuya Nasukawa, un miembro senior del personal técnico de IBM Research en Japón, dice que él y sus colegas se inspiraron en la forma en que las imágenes y el lenguaje se usan juntos para enseñar a los niños, al crear su concepto visual de naming. (VCN). Esto utiliza imágenes y texto de las redes sociales para vincular objetos a las palabras que se usan a menudo para describirlos, sobre la base de que diferentes culturas y naciones pueden usar términos bastante diferentes para referirse a la misma cosa, y que no se capturan en el entrenamiento convencional basado en texto solo. «Creemos que es esencial manejar información no textual como posiciones, formas y colores mediante el uso de información visual», dice.
Otro enfoque, que ha sido utilizado por el grupo de Ren, es tomar una base de conocimiento existente construida a mano y acoplarla a un Transformer, en lugar de intentar enseñar el sentido común del modelo de lenguaje. KagNet ajusta una implementación de BERT junto con una segunda red neuronal que codifica la información almacenada en la base de conocimientos de ConceptNet.
Un problema al vincular Transformers con otras formas de modelo de IA es que aún no está claro cómo hacer que cooperen de la manera más eficiente. En el trabajo de la USC, KagNet no aporta mucho en términos de precisión en comparación con un modelo de lenguaje perfeccionado que funciona por sí solo. Además de la relativa escasez de información en la base de conocimientos, Lin dice que el método de fusión de conocimientos puede no ser lo suficientemente profundo como para establecer buenas conexiones. Otro problema común a muchos trabajos sobre modelos de lenguaje es que no es fácil determinar por qué un modelo de lenguaje proporciona la respuesta que ofrece. «¿El modelo realmente responde a la pregunta por las razones correctas? El protocolo de evaluación actual puede no ser suficiente para mostrar el poder del razonamiento simbólico», dice Lin.
Nasukawa dice que el trabajo de respuesta visual a preguntas, en el que un sistema tiene que responder una pregunta textual sobre el contenido de una imagen, se ha encontrado con problemas similares. Él dice que la ruta más productiva que ha surgido hasta ahora es ajustar la segunda arquitectura para una aplicación específica, en lugar de intentar ajustar algo más genérico en la forma en que funcionan los modelos de lenguaje actualmente. Una estructura de propósito general más sofisticada que se pueda usar en muchas aplicaciones aún no ha surgido para aplicaciones que necesitan comprender cómo funciona el mundo. Mientras tanto, Transformers puede generar más sorpresas a medida que continúan escalando.
Otro enfoque es tomar una base de conocimientos existente construida a mano y acoplarla a un transformador, en lugar de intentar enseñar el sentido común del modelo de lenguaje.
«Cada vez, la escala agregada nos brinda nuevas capacidades que nos permiten probar nuevas suposiciones», dice Bosselut. «Por mucho que mucha gente piense que estamos yendo demasiado lejos por este camino, la verdad es que la próxima iteración del modelado de lenguaje podría abrir un nuevo conjunto de capacidades que la generación actual no tiene. Esto es algo grandioso acerca de la PNL: parece haber una apertura a diversas perspectivas «.
Otras lecturas
Rogers, A., Kovaleva, O. y Rumshisky, A. Introducción a BERTology: lo que sabemos sobre cómo funciona BERT arXiv: 2002.12327 (2020) https://arxiv.org/abs/2002.12327
Bosselut, A., Rashkin, H., Sap, M., Malaviya, C., Celikyilmaz, A. y Choi, Y. COMET: Transformadores de sentido común para la construcción automática de gráficos de conocimiento, Actas del 57th Reunión anual de la Asociación de Lingüística Computacional (LCA) (2019).
Lin, B.Y., Chen, X., Chen, J. y Ren, X. KagNet: Redes de gráficos conscientes del conocimiento para razonamiento con sentido común, Actas de la Conferencia de 2019 sobre métodos empíricos en el procesamiento del lenguaje natural y el 9th Conferencia conjunta internacional sobre procesamiento del lenguaje natural (EMNLP-IJCNLP) (2019)
Muraoka, M., Nasukawa, T., Raymond, R. y Bhattacharjee, B. Denominación de conceptos visuales: descubrimiento de expresiones textuales bien reconocidas de conceptos visuales, actas de la conferencia web (2020)
Volver arriba
© 2021 ACM 0001-0782 / 21/4
El permiso para hacer copias digitales o impresas de parte o la totalidad de este trabajo para uso personal o en el aula se otorga sin cargo siempre que las copias no se hagan o distribuyan con fines de lucro o ventaja comercial y que las copias lleven este aviso y la cita completa en la primera página. Se deben respetar los derechos de autor de los componentes de este trabajo que son propiedad de terceros distintos de ACM. Se permite resumir con crédito. Copiar de otra manera, volver a publicar, publicar en servidores o redistribuir a listas, requiere permiso y / o tarifa específicos previos. Solicite permiso para publicar a permissions@acm.org o envíe un fax al (212) 869-0481.
La Biblioteca Digital es una publicación de la Asociación de Maquinaria de Computación. Copyright © 2021 ACM, Inc.
entradas no encontradas