Más grande no siempre es mejor

Siempre ha existido esta noción con los modelos de lenguaje grande (LLM): cuanto más grande sea el modelo, mejor funcionará. Esto ha hecho que muchas empresas se jacten de la cantidad de parámetros de sus modelos. GPT-3 tiene 175 000 millones de parámetros y, para competir, a Google se le ocurrió PaLM, escalando hasta 540 000 millones.

Garry Kasparov, el famoso campeón de ajedrez que compitió contra la supercomputadora de IBM en 1997, dijo: “Como dijo un ingeniero de Google Translate, ‘cuando pasas de 10 000 ejemplos de entrenamiento a 10 mil millones de ejemplos de entrenamiento, todo comienza a funcionar’. Los datos triunfan sobre todo”. Desde entonces, se vio que a medida que aumentaba el tamaño de los modelos, también aumentaba el rendimiento, pero a costa de la computación.

Ha dado otro giro en los últimos tiempos. El mes pasado, Sam Altman, el creador de ChatGPT, dijo: «Creo que estamos al final de la era en la que estarán estos modelos gigantes, y los mejoraremos de otras maneras». Agregó que se ha prestado demasiada atención al recuento de parámetros de los modelos de lenguaje y que se debe cambiar el enfoque hacia hacer que los modelos funcionen mejor, incluso si eso significa reducir su tamaño.

Al mismo tiempo, recientemente Altman también dijo que hacer modelos más grandes no es una mala idea. Repitió que OpenAI puede hacer modelos un millón de veces más grandes de lo que ya tienen, lo que también aumentaría el rendimiento, pero no tiene sentido hacerlo, ya que podría no ser sostenible.

Cuanto más pequeño, mejor

Para citar a Sócrates: “No es el tamaño de una cosa, sino la calidad lo que realmente importa. Porque es en la naturaleza de la sustancia, no en su volumen, donde se encuentra el verdadero valor.” ¿Podemos decir lo mismo de estos modelos LLM?

Si comparamos las capacidades de GPT-3 y PaLM, la diferencia no es enorme. Dada la exageración, incluso se puede decir que el GPT-3 es incluso mejor que PaLM. Cada vez más, también estamos presenciando modelos de lenguaje aún más pequeños como LLaMa, con solo 65 mil millones de parámetros en su tamaño más grande. Meta también lanzó modelos con solo 7 mil millones de parámetros que han funcionado mucho mejor que sus contrapartes más grandes en muchos casos de uso.

Además, para destronar a LLaMa, el Instituto de Innovación Tecnológica ha lanzado Falcon, una alternativa de código abierto que también tiene una licencia especial para permitir el uso comercial, que LLaMa no permite. El modelo tiene 40 mil millones de parámetros y ya se encuentra en la cima de la tabla de clasificación Open LLM en Hugging Face. Los investigadores dicen que Falcon superó a LLaMa, StableLM y MPT en varios puntos de referencia.

Meta no se quedó solo en LLaMa. LIMA, el nuevo modelo de Meta AI está construido sobre LLaMa 65B y superó a GPT-4 y Bard en varias pruebas de rendimiento. Curiosamente, según el documento, el modelo pudo funcionar muy bien incluso con la versión de 7 mil millones de parámetros de LLaMa con solo 1000 indicaciones y respuestas cuidadosamente seleccionadas. Claramente, como decía el documento, menos es más para la alineación.

Hay otro algoritmo en la ciudad de LLM que está haciendo que incluso los modelos de menor tamaño superen a los modelos mucho más grandes. Los investigadores de MIT CSAIL autoentrenaron un modelo de implicación de 350 millones de parámetros sin etiquetas generadas por humanos. Según el documento, el modelo pudo vencer a los modelos de lenguaje supervisado como GPT-3, LaMDA y FLAN.

Los mismos investigadores han ideado una técnica llamada SimPLE (Edición simple de pseudoetiquetas), una técnica para el autoaprendizaje de modelos LLM. Los investigadores descubrieron que la autoformación podría mejorar el rendimiento de un modelo enseñándole a aprender a través de sus propias predicciones. Con SimPLE, los investigadores pudieron dar un paso más al revisar y modificar las pseudoetiquetas en la ronda inicial de capacitación.

“Si bien el campo de los LLM está experimentando cambios rápidos y drásticos, esta investigación muestra que es posible producir modelos de lenguaje relativamente compactos que funcionan muy bien en tareas de comprensión de referencia en comparación con sus pares de aproximadamente el mismo tamaño, o incluso modelos de lenguaje mucho más grandes. ”, James Glass, investigador principal y coautor del artículo.

Desarrolladores para la victoria

“Esto tiene el potencial de remodelar el panorama de la IA y el aprendizaje automático, proporcionando una solución más escalable, confiable y rentable para el modelado del lenguaje”, dijo Hongyin Luo, autor principal del documento de vinculación. “Al demostrar que los modelos más pequeños pueden funcionar al mismo nivel que los más grandes para la comprensión del lenguaje, este trabajo allana el camino para tecnologías de IA más sostenibles y que preservan la privacidad”.

Está claro que con el rápido desarrollo de la tecnología de IA generativa, los modelos más pequeños pueden realizar las mismas tareas que los más grandes. Todo comenzó con el modelo LLaMa de código abierto a través del cual los desarrolladores podían investigar y construir mejores modelos de IA en sus propios sistemas. Ahora, el campo y las opciones son cada vez más grandes en lugar de los modelos.

Ha habido un impulso para construir el ecosistema de desarrolladores de código abierto en el panorama de la IA. Meta presionó a LLaMa, Microsoft llama a todos desarrolladores ahora y Google cree que el código abierto es el verdadero ganador en la carrera de la IA. Con estos modelos más pequeños de código abierto que no requieren grandes recursos informáticos, el panorama de la IA generativa se democratizará aún más.

Así es como se ve el objetivo: todos deberían poder crear su propio ChatGPT y ejecutarlo en sus dispositivos. Para eso, necesitamos modelos más pequeños, de código abierto y más eficientes.

Con modelos tan pequeños superando a los más grandes, pronto sería posible ejecutar modelos similares a GPT en dispositivos individuales sin Internet. El futuro sería tal como lo imaginó Yann LeCun, jefe de Meta AI: múltiples modelos más pequeños trabajando juntos para un mejor rendimiento, llamándolo el modelo mundial. Esto es lo que Altman predice y desea también. Vamos en la dirección correcta.