Problema de longitud de contexto con modelos GPT

En algún momento del pasado reciente, la investigación de IA dejó de obsesionarse con el tamaño del modelo y fijó sus ojos en algo llamado tamaño de contexto. El debate sobre el tamaño del modelo se ha resuelto por ahora: los LLM más pequeños capacitados con muchos más datos finalmente han demostrado ser mejores que cualquier otra cosa que conozcamos. ¿Qué hace entonces el tamaño del contexto y por qué de repente se ha vuelto tan importante?

¿Por qué es importante la longitud del contexto?

Bueno, el interés en la longitud del contexto no es necesariamente repentino. Desde que la arquitectura del transformador se hizo más popular, una pequeña parte de la investigación ha trabajado para aumentar la longitud de la secuencia para mejorar la precisión de las respuestas de un modelo. Pero dado que los LLM como ChatGPT ahora están a punto de integrarse en las empresas, la cuestión de mejorar estas herramientas se ha vuelto mucho más grave.

Si el modelo puede tener en cuenta una conversación completa, tiene un contexto más claro y puede generar una respuesta más significativa y relevante. Básicamente, esto significa que un modelo tiene una estrategia de contexto larga. Por otro lado, si un modelo es capaz de cargar solo la parte de una conversación que es esencial para terminar una tarea, tiene una estrategia de contexto corto.

Limitación de la longitud del contexto de GPT

A pesar de todas las cosas mágicas que pueden hacer los modelos de OpenAI, ChatGPT se limitó a una longitud de contexto de 4096 tokens. Este límite se llevó a 32 768 tokens solo para una versión completa de lanzamiento limitado del seminal GPT-4. Traducir esto en términos del límite de palabras significaría ceñirse a una extensión de 3000 palabras. O, en otras palabras, si cruzara este límite de palabras al hacer una consulta, el modelo simplemente perdería la cabeza y comenzaría a alucinar.

Por ejemplo, cuando se le pidió que revisara la ortografía de un fragmento de 2000 palabras, ChatGPT pudo procesar entre 800 y 900 palabras. Después de esto, se detuvo y comenzó a alucinar. La herramienta comenzó a ofrecer sus propias preguntas no relacionadas y a responderlas por sí sola.

Pero a medida que las consultas para resolver el problema de la longitud del contexto comienzan a inundar las plataformas, algunos han descubierto parcialmente cómo hacerlo.

El rival de OpenAI, Anthropic AI, ha abierto la ventana de contexto masivamente con su propio chatbot Claude, empujándolo para que suene 75,000 palabras o 100,000 tokens. Y como indicó un blog publicado por la startup, eso es suficiente para procesar la copia completa de El gran Gatsby en un intento. Claude pudo demostrar esto: se le pidió que editara una oración en la novela al detectar el cambio en 22 segundos.

Hace un par de días, Salesforce anunció el lanzamiento de una familia de LLM de código abierto llamada CodeT5+, que dijo que era contextualmente más rica ya que no se basaba en el estilo de diseño GPT.

El blog publicado por Salesforce aclaró las cosas al culpar directamente a las imperfecciones de los modelos autorregresivos. “Por ejemplo, los modelos de solo decodificador, como los LLM basados en GPT, no funcionan bien en la comprensión de tareas como la detección de defectos y la recuperación de códigos. Muy a menudo, los modelos requieren cambios importantes en sus arquitecturas o ajustes adicionales para adaptarse a las aplicaciones posteriores”.

En su lugar, Salesforce diseñó una arquitectura de codificador-decodificador flexible que era más escalable y podía «mitigar la discrepancia entre la preparación y el ajuste».

Resolviendo el problema de la longitud del contexto

Hace cinco días, el equipo de investigación de Meta AI publicó un artículo titulado «MEGABYTE: predicción de secuencias de millones de bytes con transformadores multiescala», que proponía un nuevo método para abordar el problema de la longitud del contexto. “Los transformadores autorregresivos son modelos espectaculares para secuencias cortas, pero se adaptan mal a secuencias largas, como imágenes de alta resolución, podcasts, código o libros”, afirmó.

MEGABYTE, una nueva arquitectura de decodificación multiescala, fue un modelado diferenciable de extremo a extremo de secuencias de más de un millón de bytes. El modelo pudo segmentar secuencias en parches separados y luego usar un submodelo local dentro de estos parches y un modelo global entre ellos.

La principal ventaja que esta arquitectura tenía sobre los transformadores de autoatención también era el costo. MEGABYTE pudo reducir el costo bastante «permitiendo modelos mucho más grandes y expresivos al mismo costo mediante el uso de enormes capas de avance por parche en lugar de por posición».

Los gigantescos costos de la tokenización en los transformadores plantean la gran pregunta de si el dinero finalmente vale la pena. Incluso Claude de Anthropic, que puede procesar 100.000 tokens, posiblemente sea costoso. Por ejemplo, la longitud de contexto de 32k de GPT-4 cuesta USD 1,96, lo cual es elevado si se tiene en cuenta que estas herramientas pretenden usarse para todo tipo de tareas de propósito general en todas las organizaciones.

Para un chatbot que busca ser tan inteligente como un humano, el contexto lo es todo. Porque sin eso, un chatbot con la memoria de un pez dorado no sería mucho más de lo que es ahora.