14 LLM de código abierto que necesita saber

Parece que todo el mundo está obsesionado con la última moda: los modelos de lenguaje extenso (LLM). El apetito por estos gigantes devoradores de datos sigue creciendo. Desde GPT-3 hasta Megatron, la búsqueda de mayores y mejores recursos está lejos de terminar. Entonces, ya sea que sea un novato en procesamiento de idiomas o un profesional experimentado, aquí hay un resumen de todos los LLM de código abierto que han llegado a la escena hasta ahora. ¡Prepárate para salir friki!

Muñequita & muñeca 2.0

A las pocas semanas de lanzar Dolly, Databricks presentó Dolly 2.0, un modelo para uso comercial sin necesidad de pagar por el acceso a la API o el intercambio de datos con terceros. El modelo es una posible solución a la ambigüedad legal que rodea a los grandes modelos de lenguaje que se entrenaron previamente en la salida de ChatGPT.

FLORACIÓN

El modelo de lenguaje grande de código abierto más grande del mundo, presentado por el equipo de Hugging Face. Con los esfuerzos colaborativos de mil mentes brillantes de todo el mundo, BigScience dio a luz a BLOOM.

Descarga nuestra aplicación móvil

GLM-130B

El modelo supera de manera impresionante a GPT-3 y al modelo de idioma chino más grande en varios puntos de referencia, este modelo es un verdadero cambio de juego. Pero eso no es todo: también cuenta con una propiedad de escalado única que permite una inferencia eficiente en GPU asequibles. ¿La mejor parte? Los pesos del modelo, el código y los registros de entrenamiento están disponibles para el público. ¡Diga adiós a las limitaciones de procesamiento de idiomas y hola a GLM-130B!

GPT-Neo, GPT-NeoX & GPT-J

En el ámbito de la PNL, brillan los modelos GPT-Neo, GPT-J y GPT-NeoX, que brindan una poderosa herramienta para el aprendizaje con pocas tomas.

Gracias a las mentes de EleutherAI, estos modelos se han diseñado y puesto a disposición del público como versiones de código abierto de GPT-3, que OpenAI ha mantenido bajo llave. GPT-J y GPT-Neo fueron entrenados en el poderoso conjunto de datos Pile, una colección de fuentes de datos lingüísticos que se extienden a través de diferentes dominios, haciéndolos versátiles y adaptables a varias tareas de procesamiento de lenguaje natural.

Pero la joya de la corona de este trío es GPT-NeoX, un modelo creado sobre la base de Megatron-LM y Meta’s DeepSeed, y diseñado para brillar en el escenario de las GPU. Sus 20 mil millones de parámetros masivos lo convierten en el modelo más grande disponible públicamente. GPT-NeoX es la prueba de concepto que empuja aún más los límites del aprendizaje de pocas tomas.

GPT-2

Después de retener inicialmente GPT-2 durante nueve meses, debido a las preocupaciones sobre su potencial para difundir desinformación, spam y noticias falsas, OpenAI lanzó versiones más pequeñas y menos complejas con fines de prueba. En el blog de noviembre, OpenAI informó que no ha sido testigo de «ninguna evidencia sólida de uso indebido» y, como resultado, hizo que el modelo GPT-2 completo estuviera disponible para su uso.

Palmera

Google AI no estuvo de acuerdo con esta suposición de ‘cuanto más grande, mejor’ en la carrera de LLM, donde el tamaño de los modelos ha sido el factor que llamó la atención. El estudio encontró que los modelos de lenguaje más grandes funcionan mejor porque pueden aprender de tareas anteriores de manera más efectiva. Basado en esto, Google creó PaLM o Pathways Language Model, que tiene 540 mil millones de parámetros y es un modelo de Transformer solo decodificador.

OPTAR

Meta causó un gran revuelo en mayo de 2022 con el lanzamiento de sus modelos OPT (Open Pre-trained Transformer). Con un rango de 125 millones a la friolera de 175 mil millones de parámetros, estos transformadores pueden manejar tareas de lenguaje en una escala sin precedentes.

Puede descargar las variantes más pequeñas de Github, pero solo se puede acceder a la más grande a pedido.

CerebrasGPT

Cerebras, una empresa de infraestructura de IA con base, hizo un movimiento audaz con el lanzamiento de siete modelos GPT de código abierto. Estos modelos, incluidos los pesos y las recetas de entrenamiento, están disponibles para el público de forma gratuita bajo la licencia Apache 2.0, desafiando los sistemas propietarios de la industria actual de puertas cerradas.

Flan-T5

Google AI lanzó un modelo de lenguaje de código abierto, Flan-T5, que puede abordar más de 1800 tareas diversas. Los investigadores afirmaron que las capacidades avanzadas de razonamiento de múltiples pasos e indicaciones del modelo Flan-T5 podrían conducir a mejoras significativas.

Llama

Meta anunció LLaMA a fines de febrero de 2023. A diferencia de sus contrapartes, ChatGPT de OpenAI y Bing de Microsoft, LLaMA no es accesible al público, sino que Meta lo puso a disposición como un paquete de código abierto al que la comunidad de IA podría solicitar acceso.

Pero, solo una semana después de que Meta comenzara a aceptar solicitudes para acceder a LLaMA, el modelo se filtró en línea y conmocionó a la comunidad tecnológica.

Leer aquí: 7 maneras en que los desarrolladores están aprovechando LLaMA de Meta

Alpaca

De los pasillos de la Universidad de Stanford surgió Alpaca. El modelo se creó ajustando LLaMA 7B con más de 50 000 demostraciones siguiendo las instrucciones de GPT 3.5. Fue entrenado y probado por solo $ 600, en lugar de los millones.

Desde su lanzamiento, Alpaca ha sido aclamado como un gran avance. Aunque comenzó pequeño, con un bot de Homer Simpson, el modelo demostró rápidamente su versatilidad.