El enfoque de IA de "más grande es mejor" se está quedando sin camino

Wgallina llega a “modelos de lenguaje grande” (LLMs) como GPT—que potencia ChatGPTun chatbot popular creado por OpenAI, un laboratorio de investigación estadounidense: la pista está en el nombre. Moderno AI los sistemas están alimentados por vastas redes neuronales artificiales, fragmentos de software modelados, muy libremente, en cerebros biológicos. GPT-3, un LLM lanzado en 2020, fue un gigante. Tenía 175.000 millones de “parámetros”, como se llaman las conexiones simuladas entre esas neuronas. Fue entrenado teniendo miles de GPUs (chips especializados que sobresalen en AI trabajo) analizan cientos de miles de millones de palabras de texto en el transcurso de varias semanas. Se cree que todo eso costó al menos 4,6 millones de dólares.

Pero el resultado más consistente de la moderna AI La investigación es que, mientras más grande es bueno, más grande es mejor. Por lo tanto, los modelos han estado creciendo a un ritmo vertiginoso. GPT-4, lanzado en marzo, se cree que tiene alrededor de 1 billón de parámetros, casi seis veces más que su predecesor. Sam Altman, el jefe de la firma, calculó los costos de desarrollo en más de $100 millones. Existen tendencias similares en toda la industria. Época AIuna firma de investigación, estimó en 2022 que la potencia informática necesaria para entrenar un modelo de vanguardia se duplicaba cada seis a diez meses (ver gráfico).

Este gigantismo se está convirtiendo en un problema. Si época AILa cifra de duplicación de diez meses de es correcta, entonces los costos de capacitación podrían superar los mil millones de dólares para 2026, suponiendo, es decir, que los modelos no se queden sin datos primero. Un análisis publicado en octubre de 2022 pronosticó que el stock de texto de alta calidad para capacitación podría agotarse más o menos al mismo tiempo. E incluso una vez que se completa la capacitación, usar el modelo resultante también puede ser costoso. Cuanto más grande es el modelo, más cuesta mantenerlo. A principios de este año, Morgan Stanley, un banco, supuso que la mitad de las búsquedas de Google serían manejadas por un actual GPT-estilo programa, podría costarle a la empresa $ 6 mil millones adicionales al año. A medida que los modelos crezcan, ese número probablemente aumentará.

Muchos en el campo, por lo tanto, piensan que el enfoque de «cuanto más grande, mejor» se está quedando sin camino. Si AI los modelos son para seguir mejorando, sin importar el cumplimiento de los AI-Sueños relacionados que actualmente arrasan en la industria de la tecnología: sus creadores deberán descubrir cómo obtener un mayor rendimiento con menos recursos. Como dijo el Sr. Altman en abril, reflexionando sobre la historia de los gigantes AI: “Creo que estamos al final de una era.”

Ajuste cuantitativo

En cambio, los investigadores están comenzando a centrar su atención en hacer que sus modelos sean más eficientes, en lugar de simplemente más grandes. Un enfoque es hacer concesiones, reduciendo la cantidad de parámetros pero entrenando modelos con más datos. En 2022, investigadores de DeepMind, una división de Google, entrenaron a Chinchilla, un LLM con 70 mil millones de parámetros, en un corpus de 1,4 billones de palabras. El modelo supera GPT-3, que tiene 175 mil millones de parámetros entrenados en 300 mil millones de palabras. Alimentando a un pequeño LLM más datos significa que lleva más tiempo entrenar. Pero el resultado es un modelo más pequeño que es más rápido y económico de usar.

Otra opción es hacer las matemáticas más confusas. El seguimiento de menos lugares decimales para cada número en el modelo (en otras palabras, redondearlos) puede reducir drásticamente los requisitos de hardware. En marzo, investigadores del Instituto de Ciencia y Tecnología de Austria demostraron que el redondeo podría reducir la cantidad de memoria consumida por un modelo similar al GPT-3, lo que permite que el modelo se ejecute en una gama alta GPU en lugar de cinco, y con solo una «degradación de precisión insignificante».

Algunos usuarios afinan el uso general LLMs para centrarse en una tarea específica, como generar documentos legales o detectar noticias falsas. Eso no es tan engorroso como entrenar a un LLM en primer lugar, pero aun así puede ser costoso y lento. Sintonia FINA LLaMAMÁun modelo de código abierto con 65.000 millones de parámetros creado por Meta, la empresa matriz de Facebook, requiere varios GPUs en cualquier lugar desde varias horas a unos pocos días.

Investigadores de la Universidad de Washington han inventado un método más eficiente que les permitió crear un nuevo modelo, Guanaco, a partir de LLaMAMÁ en un solo GPU en un día sin sacrificar mucho, si es que lo hay, rendimiento. Parte del truco consistía en utilizar una técnica de redondeo similar a la de los austriacos. Pero también utilizaron una técnica llamada «adaptación de rango bajo», que consiste en congelar los parámetros existentes de un modelo y luego agregar un nuevo conjunto de parámetros más pequeño en el medio. El ajuste fino se realiza alterando solo esas nuevas variables. Esto simplifica las cosas lo suficiente como para que incluso las computadoras relativamente débiles, como los teléfonos inteligentes, puedan estar a la altura. Permitiendo LLMs para vivir en el dispositivo de un usuario, en lugar de en los centros de datos gigantes que habitan actualmente, podría permitir una mayor personalización y más privacidad.

Mientras tanto, un equipo de Google ha presentado una opción diferente para aquellos que pueden arreglárselas con modelos más pequeños. Este enfoque se enfoca en extraer el conocimiento específico requerido de un gran modelo de propósito general a uno más pequeño y especializado. El modelo grande actúa como maestro y el más pequeño como alumno. Los investigadores le piden al maestro que responda preguntas y muestre cómo llega a sus conclusiones. Tanto las respuestas como el razonamiento del profesor se utilizan para entrenar el modelo de alumno. El equipo pudo entrenar a un modelo de estudiante con solo 770 millones de parámetros, lo que superó a su profesor de 540 000 millones de parámetros en una tarea de razonamiento especializado.

En lugar de centrarse en lo que hacen los modelos, otro enfoque es cambiar la forma en que se fabrican. Una gran cantidad de AI la programación se realiza en un lenguaje llamado Python. Está diseñado para ser fácil de usar, liberando a los codificadores de la necesidad de pensar exactamente cómo se comportarán sus programas en los chips que los ejecutan. El precio de abstraer esos detalles es un código lento. Prestar más atención a estos detalles de implementación puede traer grandes beneficios. Esta es «una gran parte del juego en este momento», dice Thomas Wolf, director científico de Hugging Face, un programa de código abierto. AI compañía.

Aprende a codificar

En 2022, por ejemplo, investigadores de la Universidad de Stanford publicaron una versión modificada del “algoritmo de atención”, que permite LLMs aprender conexiones entre palabras e ideas. La idea era modificar el código para tener en cuenta lo que sucede en el chip que lo ejecuta y, especialmente, para realizar un seguimiento de cuándo se debe buscar o almacenar una determinada información. Su algoritmo fue capaz de acelerar el entrenamiento de GPT-2, un modelo de lenguaje grande más antiguo, triple. También le dio la capacidad de responder a consultas más largas.

El código más elegante también puede provenir de mejores herramientas. A principios de este año, Meta lanzó una versión actualizada de PyTorch, un ai-marco de programación. Al permitir que los codificadores piensen más en cómo se organizan los cálculos en el chip real, puede duplicar la velocidad de entrenamiento de un modelo al agregar solo una línea de código. Modular, una startup fundada por exingenieros de Apple y Google, lanzó el mes pasado un nuevo AI-lenguaje de programación centrado llamado Mojo, que se basa en Python. También le da a los codificadores control sobre todo tipo de detalles finos que antes estaban ocultos. En algunos casos, el código escrito en Mojo puede ejecutarse miles de veces más rápido que el mismo código en Python.

Una última opción es mejorar los chips en los que se ejecuta ese código. GPUs solo son buenos para correr accidentalmente AI software: fueron diseñados originalmente para procesar los gráficos sofisticados de los videojuegos modernos. En particular, dice un investigador de hardware de Meta, GPULos s están diseñados de manera imperfecta para el trabajo de «inferencia» (es decir, ejecutar un modelo una vez que se ha entrenado). Por lo tanto, algunas empresas están diseñando su propio hardware más especializado. Google ya ejecuta la mayor parte de su AI proyectos en su casa “TPU» papas fritas. Meta, con su MTIAs, y Amazon, con sus chips Inferentia, siguen un camino similar.

Puede parecer sorprendente que se puedan obtener aumentos de rendimiento tan grandes a partir de cambios relativamente simples, como redondear números o cambiar de lenguaje de programación. Pero refleja la vertiginosa velocidad con la que LLMse han desarrollado. Durante muchos años fueron proyectos de investigación, y simplemente hacerlos funcionar bien era más importante que hacerlos elegantes. Solo recientemente se han graduado a productos comerciales para el mercado masivo. La mayoría de los expertos cree que queda mucho margen de mejora. Como dijo Chris Manning, científico informático de la Universidad de Stanford: «No hay absolutamente ninguna razón para creer… que esta es la arquitectura neuronal definitiva, y nunca encontraremos nada mejor». ■