La reducción de las redes neurales masivas utilizadas para modelar el lenguaje... ScienceDaily

No necesitas un mazo para romper una nuez.

Jonathan Frankle está investigando la inteligencia artificial, no los pistachos, pero la misma filosofía se aplica a su «hipótesis del billete de lotería». Postula que, escondido dentro de las redes neurales masivas, las subredes más pequeñas pueden completar la misma tarea más eficientemente. El truco está en encontrar esas subredes «afortunadas», llamadas boletos de lotería ganadores.

En un nuevo artículo, Frankle y sus colegas descubrieron tales subredes acechando dentro del BERT, un enfoque de red neural de última generación para el procesamiento del lenguaje natural (PNL). Como una rama de la inteligencia artificial, el PNL tiene como objetivo descifrar y analizar el lenguaje humano, con aplicaciones como la generación de texto predictivo o los robots de chat en línea. En términos computacionales, el BERT es voluminoso, y típicamente demanda una potencia de supercomputación que no está disponible para la mayoría de los usuarios. El acceso al boleto ganador de la lotería del BERT podría nivelar el campo de juego, permitiendo potencialmente que más usuarios desarrollen herramientas efectivas de PNL en un teléfono inteligente, sin necesidad de un mazo.

«Estamos llegando al punto en el que vamos a tener que hacer estos modelos más eficientes y delgados», dice Frankle, añadiendo que este avance podría algún día «reducir las barreras de entrada» para la PNL.

Frankle, un estudiante de doctorado en el grupo de Michael Carbin en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, es co-autor del estudio, que será presentado el próximo mes en la Conferencia sobre Sistemas de Procesamiento de Información Neural. Tianlong Chen, de la Universidad de Texas en Austin, es el autor principal del trabajo, que incluyó a los colaboradores Zhangyang Wang, también de Texas A&M, así como a Shiyu Chang, Sijia Liu y Yang Zhang, todos del Laboratorio de Inteligencia Artificial Watson del MIT-IBM.

Probablemente has interactuado con una red BERT hoy. Es una de las tecnologías que subyace en el motor de búsqueda de Google, y ha despertado el entusiasmo de los investigadores desde que Google publicó el BERT en 2018. El BERT es un método de creación de redes neuronales: algoritmos que utilizan nodos en capas, o «neuronas», para aprender a realizar una tarea mediante el entrenamiento en numerosos ejemplos. El BERT se entrena intentando repetidamente rellenar palabras que se han dejado fuera de un pasaje de la escritura, y su poder reside en el tamaño gigantesco de este conjunto de datos de entrenamiento inicial. Los usuarios pueden entonces ajustar la red neural del BERT a una tarea particular, como la construcción de un chatbot de servicio al cliente. Pero el BERT requiere una tonelada de poder de procesamiento.

«Un modelo estándar de BERT en estos días, la variedad de jardín, tiene 340 millones de parámetros», dice Frankle, añadiendo que el número puede llegar a 1.000 millones. Afinar una red tan masiva puede requerir una supercomputadora. «Esto es obscenamente caro. Esto está más allá de la capacidad de computación de usted o de mí».

Chen está de acuerdo. A pesar de la explosión de popularidad del BERT, tales modelos «sufren de un enorme tamaño de red», dice. Por suerte, «la hipótesis del billete de lotería parece ser una solución».

Para reducir los costos de computación, Chen y sus colegas buscaron un modelo más pequeño oculto en el BERT. Experimentaron podando iterativamente los parámetros de la red completa del BERT, y luego comparando el rendimiento de la nueva subred con el del modelo original del BERT. Hicieron esta comparación para una serie de tareas de PNL, desde responder preguntas hasta llenar la palabra en blanco en una oración.

Los investigadores encontraron subredes exitosas que eran entre 40 y 90 por ciento más delgadas que el modelo inicial de BERT, dependiendo de la tarea. Además, pudieron identificar los billetes ganadores de la lotería antes de realizar cualquier ajuste específico de la tarea, un hallazgo que podría minimizar aún más los costos de computación de la PNL. En algunos casos, una subred elegida para una tarea podía ser reutilizada para otra, aunque Frankle señala que esta transferibilidad no era universal. Aún así, Frankle está más que feliz con los resultados del grupo.

«Me sorprendió que esto funcionara», dice. «No es algo que diera por sentado. Esperaba un resultado mucho más desordenado que el que obtuvimos».

Este descubrimiento de un boleto ganador en un modelo BERT es «convincente», según Ari Morcos, un científico de Facebook AI Research. «Estos modelos están cada vez más extendidos», dice Morcos. «Así que es importante entender si la hipótesis del boleto de lotería se sostiene». Agrega que el hallazgo podría permitir que los modelos tipo BERT se ejecuten usando mucho menos poder de computación, «lo cual podría ser muy impactante dado que estos modelos extremadamente grandes son actualmente muy costosos de ejecutar».

Frankle está de acuerdo. Espera que este trabajo pueda hacer al BERT más accesible, porque se opone a la tendencia de los crecientes modelos de PNL. «No sé cuánto más podemos crecer usando estos cálculos al estilo de las supercomputadoras», dice. «Vamos a tener que reducir la barrera de entrada». Identificar una subred reducida y ganadora de la lotería hace precisamente eso – permitiendo a los desarrolladores que carecen del músculo de computación de Google o Facebook, seguir realizando PNL de vanguardia. «La esperanza es que esto baje el costo, que esto lo haga más accesible a todos… a los pequeños que sólo tienen una laptop», dice Frankle. «Para mí eso es realmente emocionante».