Saltar al contenido

Evolución de los modelos GPT: comparaciones clave

4 de junio de 2023

Aprendamos sobre la evolución de los modelos GPT y las comparaciones clave entre estos modelos GTP

La introducción de modelos de lenguaje grande ha permitido un avance significativo en el campo del procesamiento del lenguaje natural durante los últimos años. Los sistemas de traducción automática aprenden cómo mapear cadenas de un idioma a otro usando modelos de lenguaje. El Modelo basado en el Transformador Pre-Entrenado Generativo (GPT) ha atraído el mayor interés últimamente dentro de la familia de modelos de lenguaje. Los modelos de lenguaje fueron inicialmente sistemas basados ​​en reglas que dependían en gran medida de la entrada del usuario para operar. Sin embargo, la complejidad, el tamaño y la precisión de las tareas realizadas por estos modelos han mejorado como resultado del desarrollo de enfoques de aprendizaje profundo.

Volvamos nuestra atención a los Modelos GPT y sus pilares. También examinaremos la evolución de los modelos GPT, comenzando con GPT-1 y pasando al GPT-4 recién lanzado, y exploraremos los principales avances realizados en cada generación que dieron a los modelos más fuerza con el tiempo.

Descripción de los modelos GPT

Un modelo de lenguaje grande (LLM) basado en aprendizaje profundo, GPT (Generative Pre-trained Transformers) tiene una arquitectura de solo decodificador basada en transformadores. Su objetivo es procesar datos de texto y producir una escritura que se vea y suene como el lenguaje humano.

Los tres pilares se explican a continuación:

1. Generativo

Esta característica destaca la capacidad del modelo para producir texto comprendiendo y reaccionando a una muestra de texto dada. La salida de texto se creaba previamente reorganizando o extrayendo palabras de la propia entrada antes de los modelos GPT. La ventaja que tenían los modelos GPT sobre otros modelos era su capacidad para generar un lenguaje más cohesivo y parecido al humano.

Recomendado:  ElectrifAi logra el estado de competencia de AWS Machine Learning en IA aplicada

Esta capacidad generativa se deriva de la finalidad modeladora de la formación.

Se intenta determinar la siguiente palabra más apropiada mediante modelos GPT que utilizan distribuciones de probabilidad para pronosticar la palabra o frase más probable. El modelado de lenguaje autorregresivo es una técnica utilizada para entrenar modelos GPT.

2. Pre-entrenado

Se considera que un modelo de ML está «preentrenado» si ha sido entrenado en un conjunto de datos considerable de muestras antes de usarse para un trabajo en particular. En el caso de GPT, el modelo se entrena utilizando una estrategia de aprendizaje no supervisado en un corpus considerable de datos de texto. Como resultado, el modelo puede descubrir patrones y conexiones en los datos por sí mismo.

Para decirlo de otra manera, el modelo aprende las características generales y la estructura de un lenguaje al ser entrenado con una gran cantidad de datos no estructurados. Una vez dominado, el modelo puede usar esta comprensión para tareas específicas como resumir y responder preguntas.

3. Transformador

un tipo específico de arquitectura de red neuronal hecha para manejar secuencias de texto de varias longitudes. Después de que se publicara el innovador estudio «La atención es todo lo que necesitas» en 2017, la idea de los transformadores se hizo popular.

La arquitectura GPT es solo decodificador. El “mecanismo de autoatención” de un transformador, que permite que el modelo capture la relación entre cada palabra y otras palabras en la misma frase, es su principal componente funcional.

Evolución de los modelos GPT

Ahora examinemos los modelos GPT con más detalle, prestando especial atención a las mejoras y adiciones realizadas en cada nueva iteración.

Recomendado:  El periodismo de IA es cada vez más difícil de diferenciar del periodismo antiguo generado por humanos | Ian Tucker

GPT-1

Se aprendió usando alrededor de 40 GB de datos de texto y es el primer modelo de la serie GPT. Para trabajos de modelado como LAMBADA, el modelo produjo resultados de vanguardia, mientras que para tareas como GLUE y SQuAD funcionó bien. El modelo puede guardar datos para frases relativamente cortas o documentar cada solicitud con un límite de longitud de contexto de 512 tokens (o alrededor de 380 palabras). La creación del siguiente modelo de la serie se vio impulsada por las excelentes habilidades de producción de texto del modelo y su buen desempeño en tareas comunes.

GPT-2

El modelo GPT-2 es descendiente del modelo GPT-1 y comparte las mismas características arquitectónicas. A diferencia de GPT-1, está entrenado en un corpus de datos de texto aún mayor. En particular, GPT-2 puede analizar muestras de texto más grandes, ya que puede manejar tamaños de entrada que son el doble de grandes. Con alrededor de 1500 millones de características, GPT-2 muestra una notable mejora en la capacidad y el potencial de modelado del lenguaje.

GPT-3

El Modelo GPT-3 es una mejora sobre el Modelo GPT-2 en varios aspectos. Tiene un máximo de 175 mil millones de parámetros y fue entrenado en un corpus de datos de texto mucho más grande.

GPT-3.5

Los modelos de la serie GPT-3.5 se derivaron de los modelos GPT-3, al igual que sus predecesores. Se utiliza un método conocido como aprendizaje reforzado con retroalimentación humana (RLHF) para agregar reglas únicas basadas en valores humanos en los modelos GPT-3.5. Esto es lo que diferencia a estos modelos de otros modelos. Los objetivos principales eran reducir la toxicidad, priorizar la veracidad en el resultado creado y hacer coincidir mejor los modelos con la intención del usuario. Para ofrecer una experiencia de usuario más segura y confiable, esta evolución denota un intento intencional de mejorar el empleo ético y responsable de los modelos de lenguaje.

Recomendado:  La inteligencia artificial podría 'descifrar el lenguaje del cáncer y el Alzheimer'

GPT-4

Con características multimodales que le permiten manejar entradas de texto e imágenes mientras produce salidas de texto, GPT-4 es el modelo más nuevo de la serie GPT. Admite una variedad de tipos de imágenes, incluidos documentos de solo texto, imágenes, esquemas, diagramas, gráficos y capturas de pantalla.

Si bien OpenAI no ha proporcionado información técnica sobre GPT-4, varias estimaciones indican que tiene cerca de 1 billón de parámetros. Esta información incluye el tamaño del modelo, la arquitectura, los métodos de entrenamiento y los pesos del modelo. Al igual que en los modelos GPT anteriores, el objetivo principal del modelo base GPT-4 es predecir la palabra siguiente dada una serie de palabras. Durante el procedimiento de capacitación, se utilizó un corpus considerable de datos de Internet con licencia y de acceso público.

Tanto en las pruebas de factibilidad antagónicas internas realizadas por OpenAI como en los puntos de referencia externos como TruthfulQA, GPT-4 ha demostrado ventajas de rendimiento sobre GPT-3.5. Los métodos RLHF utilizados en GPT-3.5 se trasladaron a GPT-4. OpenAI está mejorando activamente GPT-4 en función de los aportes de ChatGPT y otras fuentes.