Saltar al contenido

El enfoque de IA de «más grande es mejor» se está quedando sin camino

24 de junio de 2023

Ver imagen completa

..

Pero el resultado más consistente de la investigación moderna de IA es que, mientras más grande es bueno, más grande es mejor. Por lo tanto, los modelos han estado creciendo a un ritmo vertiginoso. Se cree que GPT-4, lanzado en marzo, tiene alrededor de 1 billón de parámetros, casi seis veces más que su predecesor. Sam Altman, el jefe de la firma, calculó los costos de desarrollo en más de $100 millones. Existen tendencias similares en toda la industria. Epoch AI, una firma de investigación, estimó en 2022 que la potencia informática necesaria para entrenar un modelo de vanguardia se duplicaba cada seis a diez meses (ver gráfico).

Este gigantismo se está convirtiendo en un problema. Si la cifra de duplicación de diez meses de Epoch AI es correcta, entonces los costos de capacitación podrían superar los mil millones de dólares para 2026, suponiendo, es decir, que los modelos no se queden sin datos primero. Un análisis publicado en octubre de 2022 pronosticó que el stock de texto de alta calidad para capacitación podría agotarse más o menos al mismo tiempo. E incluso una vez que se completa la capacitación, usar el modelo resultante también puede ser costoso. Cuanto más grande es el modelo, más cuesta mantenerlo. A principios de este año, el banco Morgan Stanley supuso que, si la mitad de las búsquedas de Google fueran manejadas por un programa actual de estilo GPT, podría costarle a la empresa $ 6 mil millones adicionales al año. A medida que los modelos crezcan, ese número probablemente aumentará.

Por lo tanto, muchos en el campo piensan que el enfoque de «más grande es mejor» se está quedando sin camino. Si los modelos de IA deben seguir mejorando, sin importar el cumplimiento de los sueños relacionados con la IA que actualmente arrasan en la industria tecnológica, sus creadores deberán averiguar cómo para obtener más rendimiento con menos recursos. Como dijo el Sr. Altman en abril, reflexionando sobre la historia de la IA de tamaño gigante: «Creo que estamos al final de una era».

Ajuste cuantitativo

En cambio, los investigadores están comenzando a centrar su atención en hacer que sus modelos sean más eficientes, en lugar de simplemente más grandes. Un enfoque es hacer concesiones, reduciendo la cantidad de parámetros pero entrenando modelos con más datos. En 2022, los investigadores de DeepMind, una división de Google, entrenaron a Chinchilla, un LLM con 70 000 millones de parámetros, en un corpus de 1,4 billones de palabras. El modelo supera a GPT-3, que tiene 175 mil millones de parámetros entrenados en 300 mil millones de palabras. Alimentar a un LLM más pequeño con más datos significa que lleva más tiempo entrenar. Pero el resultado es un modelo más pequeño que es más rápido y económico de usar.

Recomendado:  Chat GPT: “Un pequeño paso para la investigación pero un gi

Otra opción es hacer las matemáticas más confusas. El seguimiento de menos lugares decimales para cada número en el modelo (en otras palabras, redondearlos) puede reducir drásticamente los requisitos de hardware. En marzo, investigadores del Instituto de Ciencia y Tecnología de Austria demostraron que el redondeo podría reducir la cantidad de memoria consumida por un modelo similar a GPT-3, lo que permite que el modelo se ejecute en una GPU de gama alta en lugar de cinco, y con solo » degradación insignificante de la precisión».

Algunos usuarios ajustan los LLM de propósito general para centrarse en una tarea específica, como generar documentos legales o detectar noticias falsas. Eso no es tan engorroso como entrenar un LLM en primer lugar, pero aún puede ser costoso y lento. El ajuste fino de LLaMA, un modelo de código abierto con 65 000 millones de parámetros creado por Meta, la empresa matriz de Facebook, requiere varias GPU desde varias horas hasta unos pocos días.

Investigadores de la Universidad de Washington han inventado un método más eficiente que les permitió crear un nuevo modelo, Guanaco, de LLaMA en una sola GPU en un día sin sacrificar mucho, si es que lo hizo, el rendimiento. Parte del truco consistía en utilizar una técnica de redondeo similar a la de los austriacos. Pero también usaron una técnica llamada «adaptación de rango bajo», que consiste en congelar los parámetros existentes de un modelo y luego agregar un nuevo conjunto de parámetros más pequeño en el medio. El ajuste fino se realiza alterando solo esas nuevas variables. Esto simplifica las cosas. lo suficiente como para que incluso computadoras relativamente débiles, como los teléfonos inteligentes, puedan estar a la altura.Permitir que los LLM vivan en el dispositivo de un usuario, en lugar de en los centros de datos gigantes que habitan actualmente, podría permitir una mayor personalización y más privacidad.

Recomendado:  Cómo la Inteligencia Artificial puede ayudar a mejorar la calidad del aire

Mientras tanto, un equipo de Google ha presentado una opción diferente para aquellos que pueden arreglárselas con modelos más pequeños. Este enfoque se enfoca en extraer el conocimiento específico requerido de un gran modelo de propósito general a uno más pequeño y especializado. El modelo grande actúa como maestro y el más pequeño como alumno. Los investigadores le piden al maestro que responda preguntas y muestre cómo llega a sus conclusiones. Tanto las respuestas como el razonamiento del profesor se utilizan para entrenar el modelo de alumno. El equipo pudo entrenar a un modelo de estudiante con solo 770 millones de parámetros, lo que superó a su profesor de 540 000 millones de parámetros en una tarea de razonamiento especializado.

En lugar de centrarse en lo que hacen los modelos, otro enfoque es cambiar la forma en que se fabrican. Gran parte de la programación de IA se realiza en un lenguaje llamado Python. Está diseñado para ser fácil de usar, liberando a los codificadores de la necesidad de pensar exactamente cómo se comportarán sus programas en los chips que los ejecutan. El precio de abstraer esos detalles es un código lento. Prestar más atención a estos detalles de implementación puede traer grandes beneficios. Esta es «una gran parte del juego en este momento», dice Thomas Wolf, director científico de Hugging Face, una empresa de inteligencia artificial de código abierto.

Aprende a codificar

En 2022, por ejemplo, investigadores de la Universidad de Stanford publicaron una versión modificada del «algoritmo de atención», que permite a los LLM aprender conexiones entre palabras e ideas. La idea era modificar el código para tener en cuenta lo que sucede en el chip que lo está ejecutando, y especialmente para realizar un seguimiento de cuándo una determinada información debe buscarse o almacenarse. Su algoritmo pudo acelerar el entrenamiento de GPT-2, un modelo de lenguaje grande más antiguo, tres veces. También le dio la capacidad de responder a consultas más largas.

El código más elegante también puede provenir de mejores herramientas. A principios de este año, Meta lanzó una versión actualizada de PyTorch, un marco de programación de inteligencia artificial. Al permitir que los codificadores piensen más en cómo se organizan los cálculos en el chip real, puede duplicar la velocidad de entrenamiento de un modelo al agregar solo una línea de código. Modular, una startup fundada por exingenieros de Apple y Google, lanzó el mes pasado un nuevo lenguaje de programación centrado en la inteligencia artificial llamado Mojo, que se basa en Python. También le da a los codificadores control sobre todo tipo de detalles finos que antes estaban ocultos. En algunos casos, el código escrito en Mojo puede ejecutarse miles de veces más rápido que el mismo código en Python.

Recomendado:  Descodificador de pensamientos

Una última opción es mejorar los chips en los que se ejecuta ese código. Las GPU solo son accidentalmente buenas para ejecutar software de inteligencia artificial: originalmente fueron diseñadas para procesar los gráficos sofisticados en los videojuegos modernos. En particular, dice un investigador de hardware de Meta, las GPU están diseñadas de manera imperfecta para el trabajo de «inferencia» (es decir, ejecutar un modelo una vez que ha sido entrenado). Por lo tanto, algunas empresas están diseñando su propio hardware más especializado. Google ya ejecuta la mayor parte de sus proyectos de IA en sus chips «TPU» internos. Meta, con sus MTIA, y Amazon, con sus chips Inferentia, siguen un camino similar.

Puede parecer sorprendente que se puedan obtener aumentos de rendimiento tan grandes a partir de cambios relativamente simples, como redondear números o cambiar de lenguaje de programación. Pero refleja la velocidad vertiginosa con la que se han desarrollado los LLM. Durante muchos años fueron proyectos de investigación, y simplemente hacerlos funcionar bien era más importante que hacerlos elegantes. Solo recientemente se han graduado a productos comerciales para el mercado masivo. La mayoría de los expertos cree que queda mucho margen de mejora. Como dijo Chris Manning, científico informático de la Universidad de Stanford: «No hay absolutamente ninguna razón para creer… que esta es la arquitectura neuronal definitiva, y nunca encontraremos nada mejor».

© 2023, The Economist Newspaper Limited. Reservados todos los derechos. De The Economist, publicado bajo licencia. El contenido original se puede encontrar en www.economist.com

Vea todas las noticias y actualizaciones tecnológicas en Live Mint. Descargue la aplicación The Mint News para obtener actualizaciones diarias del mercado y noticias comerciales en vivo.

más menos

Actualizado: 24 de junio de 2023, 09:39 a. m. IST