Saltar al contenido

Hyena puede lograr la misma precisión que GPT-4, pero usa 100 veces menos poder de cómputo

19 de mayo de 2023

La nueva tecnología, llamada Hyena (que significa «hiena»), puede lograr la misma precisión que GPT-4, pero usa 100 veces menos poder de cómputo que este último.

A pesar del revuelo mundial en torno al chatbot ChatGPT de IA de Open AI y su último modelo de lenguaje de IA, GPT-4, estos modelos de lenguaje son, al final del día, solo aplicaciones de software. Como todas las aplicaciones, tienen limitaciones técnicas.

En marzo de este año, los científicos de inteligencia artificial de la Universidad de Stanford y el Instituto MILA para IA en Canadá publicaron conjuntamente un artículo y propusieron una nueva tecnología (Hyena). Esta tecnología es incluso más eficiente que GPT-4 o cualquier tecnología de IA similar, puede tomar una gran cantidad de datos y convertirlos en la respuesta que el usuario desea.

La tecnología, conocida como Hyena, pudo lograr una precisión similar a GPT-4 en puntos de referencia como la respuesta a preguntas usando solo una fracción de su poder de cómputo. En algunos casos, Hyena puede manejar una gran cantidad de texto, mientras que GPT-4 solo puede procesar no más de 25,000 palabras a la vez.

El científico de Google Ashish Vaswani y sus colegas publicaron un artículo llamado «La atención es todo lo que necesitas» («Attention Is All You Need») en 2017, que es un hito en el campo de la investigación de la inteligencia artificial. Este documento brinda una introducción muy detallada al modelo Transformer (una estructura de red neuronal). Se puede construir una red neuronal entrenable basada en transformadores en forma de transformadores apilados. Es bueno para procesar tareas de comprensión del lenguaje y requiere menos poder de cómputo. . El autor escribió en el artículo: “Los resultados basados ​​en la operación del modelo de mil millones de parámetros muestran que la atención puede no ser todo lo que necesitamos”. Transformer tiene un gran potencial y se ha convertido en la base de muchos modelos de lenguaje grandes, como ChatGPT.

Sin embargo, el modelo de red neuronal de Transformer tiene un gran defecto. Cuando procesa una gran cantidad de información de entrada, necesita aprender del «mecanismo de atención» del cerebro humano, es decir, solo seleccionar algunas entradas de información clave para el procesamiento, a fin de mejorar la eficiencia de la red neuronal. .

Este mecanismo de atención tiene una «complejidad computacional cuadrática», su complejidad de tiempo y almacenamiento es cuadrática en longitud de secuencia, y su capacidad para manejar secuencias de texto largas es muy pobre. Este defecto inherente es que incluye ChatGPT y GPT-4. Todos los programas de idiomas grandes, incluidos . Esta complejidad cuadrática significa que el tiempo que tarda ChatGPT en generar una respuesta aumenta con la cantidad de datos de entrada.

Hasta cierto punto, si el contenido del aviso es demasiado ingresado, el programa no puede proporcionar la respuesta o debe tener suficiente poder de cómputo para satisfacer las necesidades operativas, lo que conducirá a un aumento en las necesidades de cómputo de los chatbots de inteligencia artificial.

En un nuevo artículo, «La jerarquía de la hiena: hacia modelos de lenguaje convolucional más grandes» (Hacia modelos de lenguaje convolucional más grandes), el autor principal Michael Poli de la Universidad de Stanford y sus colegas proponen usar una «función subcuadrática», o Hiena, para reemplazar el Función de atención del transformador.

Recomendado:  La inteligencia artificial en la educación

El autor no explicó el origen del nombre «Hiena», pero la gente puede imaginar varias razones. La hiena, también traducida como “hiena”, es un animal que vive en África y puede cazar por millas. En cierto sentido, un modelo de lenguaje muy poderoso puede actuar como una hiena, procesando decenas de miles de textos en busca de “respuestas”.

Pero como sugiere el título, lo que realmente le importa al autor es la «jerarquía». La familia de las hienas tiene una jerarquía estricta. En términos generales, la reina hiena es la más noble, seguida de los cachorros, y el estado más bajo es la hiena macho. La reina hiena lidera y domina a todo el grupo, disfrutando del estatus más alto. Esta “jerarquía” establece el dominio de la reina hiena. Como verá, los programas de Hyena aplican una serie de operaciones muy simples una y otra vez de manera similar, combinándolas para formar una jerarquía de procesamiento de datos. Es por eso que el programa se llamó “Hyena”.

Los autores especiales de este artículo incluyen a muchas personas destacadas del campo de la inteligencia artificial, como Yoshua Bengio, el director científico del Instituto MILA de Inteligencia Artificial en Canadá, quien es el Premio Turing 2019 (equivalente al campo de la informática). ganador del Premio Nobel). A Bengio se le atribuye el desarrollo de mecanismos de atención mucho antes de que Vaswani y su equipo los aplicaran a Transformer. Christopher Ré, profesor asociado de informática en la Universidad de Stanford y coautor, ha ayudado a promover el concepto de inteligencia artificial como «software 2.0» en los últimos años.

Para encontrar una alternativa a la «complejidad computacional cuadrática» del mecanismo de atención, Poli y su equipo se propusieron estudiar cómo funciona el mecanismo de atención.

Un campo reciente de investigación práctica en la ciencia de la inteligencia artificial, conocida como interpretabilidad mecanicista, está obteniendo información sobre el funcionamiento interno de las redes neuronales: cómo funciona el mecanismo de atención. Puede pensar en ello como desarmar una computadora, mirar sus partes individuales y descubrir cómo funciona.

Polly y su equipo citan una serie de experimentos realizados por Nelson Elhage, investigador de la startup de inteligencia artificial Anthropic, que realizó un análisis global de la estructura algorítmica de Transformer y clarificó fundamentalmente a Transformer. Cuál es el contenido del trabajo al procesar y generar texto, y explora profundamente el principio de funcionamiento del mecanismo de atención detrás de él.

Esencialmente, Elhag y su equipo descubrieron que la atención funciona en el nivel más básico a través de manipulaciones informáticas muy simples. Supongamos que se le da una entrada, «La maestra Judy está muy ocupada… porque la maestra X…», X señala a «Judy». El mecanismo de atención es mirar la última palabra «Profesor» en el contexto y buscar una palabra específica asociada con la última palabra en el contexto, y luego generar esta palabra asociada como modelo.

Como otro ejemplo, si una persona ingresa una oración de «Harry Potter y la piedra filosofal» (Harry Potter y la piedra filosofal) en ChatGPT, como «Sr. Dursley era el director de una firma llamada Grunnings…”, luego ingresar “Durs”, el comienzo del nombre, puede ser suficiente para que el programa complete el nombre “Dursley”, porque ha visto este nombre en el libro “ Harry Potter y la Piedra Filosofal». El sistema puede copiar el registro del carácter «ley» de la memoria para completar automáticamente la salida de la oración.

Recomendado:  Cómo obtener la Inteligencia Artificial GPT-4 gratis

Sin embargo, a medida que aumenta el número de palabras, el mecanismo de atención sufre de complejidad cuadrática. Más texto requiere más «pesos» o parámetros para ejecutarse.

Como escriben los autores: “El bloque Transformer es una herramienta poderosa para el modelado de secuencias, pero no está exenta de limitaciones. El más notable de estos es el costo computacional, que crece rápidamente a medida que aumenta la longitud del contenido de la secuencia de entrada”.

Aunque OpenAI no ha revelado los detalles técnicos de ChatGPT y GPT-4, se entiende que pueden tener un billón o más de estos parámetros. Ejecutar estos parámetros requiere más chips de GPU, lo que aumenta el costo computacional.

Para reducir el costo de los cálculos secundarios, Poli y su equipo reemplazaron el mecanismo de atención con el llamado «modelo convolucional», uno de los modelos computacionales más antiguos en la programación de IA, refinado desde la década de 1980. El modelo convolucional es equivalente a un programa de filtro que puede seleccionar elementos de los datos, ya sea un píxel de imagen o un formato de texto, es compatible.

Poli y su equipo realizaron un estudio híbrido, combinando el trabajo realizado por el investigador de la Universidad de Stanford Daniel Y. Fu y su equipo con la investigación de David Romero de la Universidad Vrije en Ámsterdam y sus colegas, lo que permitió que el programa cambiara dinámicamente el tamaño del dispositivo de filtrado. Esta capacidad de adaptación flexible reduce el número de parámetros o pesos requeridos por el programa.

Los modelos convolucionales se pueden aplicar a una cantidad ilimitada de texto sin requerir más y más parámetros para mantener el programa en ejecución. Como dice el autor, este es un método que “no requiere concentración”.

«Hyena puede reducir significativamente la brecha con los mecanismos de atención, resolviendo perplejidades equivalentes con un presupuesto de potencia informática más pequeño», escribieron Poli y su equipo.

Para demostrar las capacidades de Hyena, los autores probaron el programa contra una serie de puntos de referencia que determinan qué tan bien se desempeña un programa de lenguaje en varias tareas de inteligencia artificial.

Una de esas pruebas es The Pile, un conjunto de datos de modelado de lenguaje de código abierto de 825 GiB recopilado en 2020 por la organización de investigación de IA sin fines de lucro Eleuther.ai. Estos textos se ensamblan a partir de 22 conjuntos de datos más pequeños de alta calidad, como PubMed, arXiv, GitHub, USPTO, etc., que son más especializados que otros.

Recomendado:  La IA aplicada enseña escritura a mano | octubre 2022

El principal desafío que enfrentó el programa fue cómo generar una nueva palabra cuando se alimentaba con un montón de oraciones nuevas. A partir de 2018, Hyena pudo lograr una precisión comparable al programa GPT original de OpenAI con un 20 por ciento menos de operaciones computacionales, escribieron los investigadores. Es el primer modelo convolucional sin atención que iguala la calidad de GPT.

A continuación, los autores probaron el programa en una tarea de inferencia llamada SuperGLUE, presentada en 2019 por académicos de la Universidad de Nueva York, Facebook AI Research, la división DeepMind de Google y la Universidad de Washington.

Por ejemplo, cuando se da la hipótesis “mi cuerpo está proyectando una sombra sobre la hierba”, y se dan dos razones para este fenómeno: “ha salido el sol” o “se cortó la hierba”, y se le pide al programa que elija una de ellas Por razones razonables, generará «Ha salido el sol» como texto de salida.

Cuando se trata de multitarea, el modelo Hyena obtiene una puntuación igual o cercana a la puntuación de la versión GPT, pero utiliza menos de la mitad de los datos de entrenamiento como GPT. Aún más interesante es lo que sucede cuando el autor intenta aumentar la longitud de la cadena de entrada y descubre que cuantos más caracteres, mejor es el rendimiento y menos tiempo lleva.

Poli y su equipo creen que no solo intentaron un enfoque diferente con Hyena, sino que también resolvieron el problema de la complejidad computacional cuadrática, logrando un cambio cualitativo en la dificultad de los resultados de cálculo del programa.

En el futuro, creen, romper la barrera de la computación cuadrática es un paso fundamental hacia el aprendizaje profundo, por ejemplo, utilizando libros de texto completos como señales contextuales para componer piezas musicales largas o procesar imágenes de gigapíxeles.

Los autores escribieron que Hyena pudo usar un programa de detección que podía escalar de manera más eficiente hasta decenas de miles de palabras, lo que significa que prácticamente no había límite para el contexto del programa de lenguaje de consulta, que incluso podía recordar texto o el contenido de anteriores conversaciones

Proponen que Hyena no está artificialmente limitada y puede aprender cualquier elemento del «indicador de entrada». Además, además del texto, el programa también se puede aplicar a diferentes formas de datos, como imágenes y quizás video y sonido.

Vale la pena señalar que el programa Hyena que se muestra en el documento es pequeño en comparación con GPT-4 o incluso GPT-3. GPT-3 tiene 175 mil millones de parámetros o pesos, mientras que Hyena tiene como máximo 1300 millones de parámetros. Por lo tanto, queda por ver cómo se comporta Hyena en comparación con GPT-3 o GPT-4.

Pero si el programa Hyena también demuestra ser eficiente a mayor escala, el programa podría volverse muy popular, comparable a la popularidad que han alcanzado los mecanismos de atención en la última década.

Como concluyen Poli y su equipo: «Los modelos cuadráticos más simples, como Hyena, basados ​​en un conjunto simple de principios rectores y puntos de referencia de interpretabilidad mecánica, pueden ser la base para grandes modelos de lenguaje eficientes».