Aprenda cómo reducir el costo de usar ChatGPT y GPT4 usando estas técnicas
Los modelos de lenguaje extenso (LLM) como ChatGPT y GPT-4 son útiles. Con unas pocas llamadas a la API, puede hacer que realicen cosas extraordinarias. Cada llamada a la API tiene un costo marginal y puede crear pruebas de concepto con ejemplos prácticos.
Sin embargo, cuando se usa para aplicaciones del mundo real que realizan cientos de solicitudes de API todos los días, los cargos pueden acumularse pronto. Puede gastar miles de dólares mensuales para completar las cosas, lo que generalmente cuesta una fracción de esa cantidad.
Según un estudio reciente realizado por investigadores de la Universidad de Stanford, el uso de GPT-4, ChatGPT y otras API de LLM puede reducir significativamente los gastos. Un estudio llamado «FrugalGPT» presenta muchos enfoques para reducir el costo de las API de LLM hasta en un 98 % mientras mantiene o incluso aumenta su rendimiento. Aquí hay más información sobre cómo puede reducir el costo de ChatGPT.
¿Qué modelo de lenguaje API debe usar?
GPT-4 a menudo se considera el modelo de lenguaje grande más competente. Sin embargo, también es el más costoso. Y los cargos aumentan a medida que se alarga su aviso. En muchas circunstancias, se puede usar otro modelo de lenguaje, proveedor de API o incluso aviso para reducir los costos de inferencia. Por ejemplo, OpenAI ofrece un conjunto diverso de modelos con precios que van desde USD 0,0005 hasta USD 0,15 por 1000 tokens, una diferencia de 300x. También puede buscar otros proveedores para los gastos, como AI21 Labs, Cohere y Textsynth.
Afortunadamente, la mayoría de los proveedores de API ofrecen interfaces comparables. Con algo de trabajo, puede construir una capa de abstracción que se puede aplicar sin problemas a otras API. Los paquetes de Python como LangChain ya han hecho la mayor parte del trabajo pesado por usted. Sin embargo, debe elegir entre calidad y costo solo si tiene un proceso sistemático para seleccionar el LLM más eficiente para cada trabajo.
Investigadores de la Universidad de Stanford presentan una solución que mantiene los cargos de la API LLM dentro de una restricción financiera. Ofrecen tres técnicas: adaptación rápida, cascada LLM y aproximación LLM. Si bien estos procedimientos aún no se han probado en un contexto de producción, los hallazgos preliminares son alentadores.
Adaptación rápida
Todas las API de LLM tienen un plan de costos basado en la duración de la solicitud. Como resultado, la solución más sencilla para reducir los gastos de uso de la API es abreviar las indicaciones. Hay varias opciones.
Los LLM requieren indicaciones de pocas tomas para numerosas actividades. Sería útil si antepusiera su solicitud con algunos ejemplos para mejorar el rendimiento del modelo, a menudo en el estilo de solicitud->respuesta. Los marcos como LangChain proporcionan herramientas para crear plantillas que contienen un ejemplo de algunas tomas.
Como los LLM ofrecen contextos cada vez más largos, los desarrolladores pueden diseñar plantillas gigantes de pocas tomas para aumentar la precisión del modelo. Sin embargo, el modelo puede requerir menos instancias.
Los investigadores sugieren una «selección rápida», que implica reducir las muestras de pocos disparos al mínimo mientras se mantiene la calidad de salida. Incluso eliminar 100 tokens de la plantilla puede generar ahorros significativos cuando se usa repetidamente.
Otro método que recomiendan es la «concatenación de consultas», en la que combina numerosas indicaciones en una sola y hace que el modelo cree varios resultados en una sola llamada. Una vez más, esto funciona muy bien con indicaciones de pocos disparos. Debe incluir las muestras de pocas tomas con cada mensaje si envía sus preguntas por correo electrónico una a la vez. Sin embargo, si concatena sus indicaciones, solo necesita proporcionar el contexto una vez y obtener muchas respuestas en la salida.
FrugalGPT
Los investigadores utilizaron FrugalGPT, que aprovecha 12 API diferentes de OpenAI, Textsynth, Cohere, AI21 Labs y ForeFrontAI, para realizar la técnica de cascada LLM.
Sugiere vías fascinantes para seguir en las aplicaciones de LLM. Si bien este estudio se enfoca en los costos, se pueden usar metodologías similares para abordar otros problemas, como la criticidad del riesgo, la latencia y la privacidad.
Aproximación LLM
Otra medida de reducción de costos es limitar la cantidad de llamadas API realizadas al LLM. Los investigadores aconsejan que los LLM costosos se aproximen «utilizando modelos o infraestructura más asequibles».
Una forma de aproximar los LLM es usar un «caché de finalización», que almacena las solicitudes y respuestas de LLM en un servidor intermediario. Si un usuario proporciona una pregunta que es idéntica o similar a una que ya se ha almacenado en caché, obtendrá la respuesta almacenada en caché en lugar de volver a solicitar el modelo. Si bien la construcción de un caché de finalización es simple, existen algunas desventajas significativas. Para empezar, inhibe la originalidad y variabilidad del LLM. En segundo lugar, su aplicabilidad estará determinada por la similitud de las solicitudes de diferentes usuarios. Tercero, el caché puede ser significativo si las señales y respuestas almacenadas difieren. Finalmente, mantener las respuestas solo será eficiente si el resultado del LLM depende del contexto.
cascada LLM
Una opción más compleja sería construir un sistema que elija la API correcta para cada pregunta. El sistema puede optimizarse para seleccionar el LLM menos costoso capaz de responder a la consulta del usuario en lugar de enviar todo a GPT-4. Esto puede resultar tanto en ahorros de costos como en un mejor rendimiento.