Si bien el software de código abierto ha hecho que la IA sea accesible para más personas, todavía existen dos barreras importantes para su uso generalizado: el retraso de la inferencia y el costo.
Las optimizaciones del sistema han recorrido un largo camino y pueden reducir sustancialmente la latencia y el costo de la inferencia del modelo DL, pero no son accesibles de inmediato. Muchos científicos de datos carecen de la experiencia para identificar e implementar correctamente el conjunto de optimizaciones del sistema relevantes para un modelo específico, lo que hace que la inferencia de baja latencia y bajo costo esté fuera de su alcance. La naturaleza compleja del panorama de inferencia del modelo DL, incluidas las amplias variaciones en el tamaño del modelo, la arquitectura, las características de rendimiento del sistema, los requisitos de hardware, etc., es la causa principal de esta falta de disponibilidad.
Una investigación reciente de Microsoft DeepSpeed-MII de código abierto, una nueva biblioteca de Python de código abierto desarrollada por la compañía para facilitar la adopción generalizada de inferencia de bajo costo y baja latencia de modelos de alto rendimiento. MII brinda acceso a miles de modelos DL populares con implementaciones altamente eficientes.
MII utiliza muchas optimizaciones de DeepSpeed-Inference, como fusión profunda para transformadores, corte de tensor automatizado para inferencia de múltiples GPU, cuantificación sobre la marcha usando ZeroQuant y otras que proporcionan inferencia de baja latencia/costo. Permite la implementación de bajo costo de estos modelos en las instalaciones y en Azure a través de AML con solo unas pocas líneas de código, todo mientras proporciona un rendimiento de última generación.
DeepSpeed-Inference es el motor que impulsa MII bajo el capó. MII aplica automáticamente las optimizaciones de DeepSpeed-system Inference para minimizar la latencia y maximizar el rendimiento según el tipo de modelo, el tamaño, el tamaño del lote y los recursos de hardware disponibles. Para lograr esto, MII y DeepSpeed-Inference utilizan una de las muchas reglas de inyección de modelo especificadas previamente, que permiten determinar la arquitectura del modelo PyTorch subyacente y el reemplazo posterior con una implementación optimizada. Como resultado, los miles de modelos compatibles populares de MII obtienen acceso instantáneo al conjunto de optimizaciones de DeepSpeed-comprehensive Inference.
Se puede acceder a miles de modelos de transformadores desde varios repositorios de modelos de código abierto, incluidos Hugging Face, FairSeq, EluetherAI, etc. MII admite varias aplicaciones como creación de texto, respuesta a preguntas, clasificación, etc. Funciona con modelos extremadamente complejos con cientos de millones de parámetros, incluidos los basados en las arquitecturas BERT, RoBERTa, GPT, OPT y BLOOM. Además, se admiten métodos modernos de creación de imágenes, como Stable Diffusion.
Las cargas de trabajo de inferencia pueden ser críticas para la latencia, donde el objetivo principal es minimizar la latencia, o sensibles al costo, donde el objetivo principal es minimizar el costo.
Hay dos variantes de DeepSpeed-Inference que MII puede usar. El primero, ds-public, está incluido en la biblioteca pública de DeepSpeed e incluye la mayoría de las mejoras antes mencionadas. El segundo, ds-azure, es accesible para todos los usuarios de Microsoft Azure a través de MII y proporciona una conectividad más profunda con Azure. Las instancias de MII se pueden llamar utilizando las dos variaciones de DeepSpeed-Inference MII-Public y MII-Azure.
En comparación con la implementación PyTorch de código abierto (Baseline), MII-Public y MII-Azure brindan una latencia significativa y reducciones de costos. Sin embargo, para cargas de trabajo generativas específicas, pueden tener distintos rendimientos. MII puede reducir la latencia hasta 6 veces para varios modelos de código abierto en varias cargas de trabajo, lo que lo hace ideal para casos críticos de latencia donde se emplea comúnmente un tamaño de lote de 1. El equipo empleó un tamaño de lote grande que maximiza la línea de base y el rendimiento de MII para obtener el costo más bajo. Los resultados muestran que los modelos de lenguaje costosos como Bloom, OPT, etc., pueden reducir drásticamente los costos de inferencia mediante el uso de MII.
MII-Public puede ejecutarse localmente o en cualquier servicio en la nube. MII desarrolla un servidor GRPC mínimo y proporciona un punto final de inferencia GRPC para preguntas que ayuden en esta implementación. MII se puede usar con Azure mediante AML Inference.
Los investigadores esperan que su trabajo sea compatible con una amplia gama de modelos. Creen que MII permitirá una infusión más amplia de poderosas habilidades de IA en varias aplicaciones y ofertas de productos al reducir instantáneamente la latencia y el costo de la inferencia.
Referencia: https://www.microsoft.com/en-us/research/project/deepspeed/deepspeed-mii/
Asif Razzaq es periodista de inteligencia artificial y cofundador de Marktechpost, LLC. Es un visionario, emprendedor e ingeniero que aspira a utilizar el poder de la Inteligencia Artificial para el bien.
La última empresa de Asif es el desarrollo de una plataforma de medios de inteligencia artificial (Marktechpost) que revolucionará la forma en que las personas pueden encontrar noticias relevantes relacionadas con la inteligencia artificial, la ciencia de datos y el aprendizaje automático.
Asif fue presentado por Onalytica en su ‘¿Quién es quién en IA? (Voces y marcas influyentes)’ como uno de los ‘Periodistas influyentes en IA’ (https://onalytica.com/wp-content/uploads/2021/09/Whos-Who-In-AI.pdf). Su entrevista también fue presentada por Onalytica (https://onalytica.com/blog/posts/interview-with-asif-razzaq/).