Saltar al contenido

NVIDIA lanza plataformas de inferencia para modelos de lenguaje extenso y cargas de trabajo de IA generativa

22 de marzo de 2023

NVIDIA lanzó cuatro plataformas de inferencia optimizadas para un conjunto diverso de aplicaciones de IA generativas que emergen rápidamente, lo que ayuda a los desarrolladores a crear rápidamente aplicaciones especializadas impulsadas por IA que pueden brindar nuevos servicios e información.

Las plataformas combinan la pila completa de software de inferencia de NVIDIA con los últimos procesadores NVIDIA Ada, NVIDIA Hopper™ y NVIDIA Grace Hopper™, incluido el GPU Nvidia L4 Tensor Core y el GPU NVIDIA H100 NVL, ambos lanzados en GTC. Cada plataforma está optimizada para cargas de trabajo bajo demanda, incluido video de IA, generación de imágenes, implementación de modelos de lenguaje grande e inferencia de recomendación.

“El auge de la IA generativa requiere plataformas informáticas de inferencia más potentes”, dijo Jensen Huang, fundador y director ejecutivo de NVIDIA. “La cantidad de aplicaciones para la IA generativa es infinita, limitada solo por la imaginación humana. Equipar a los desarrolladores con la plataforma informática de inferencia más poderosa y flexible acelerará la creación de nuevos servicios que mejorarán nuestras vidas de maneras que aún no imaginamos”.

Acelerando el conjunto diverso de cargas de trabajo de inferencia de IA generativa
Cada una de las plataformas contiene una GPU NVIDIA optimizada para cargas de trabajo de inferencia de IA generativa específicas, así como software especializado:

  • NVIDIA L4 para vídeo con IA puede ofrecer 120 veces más rendimiento de video impulsado por IA que las CPU, combinado con un 99 % más de eficiencia energética. Sirviendo como una GPU universal para prácticamente cualquier carga de trabajo, ofrece capacidades mejoradas de decodificación y transcodificación de video, transmisión de video, realidad aumentada, video generativo de IA y más.
  • NVIDIA L40 para generación de imágenes está optimizado para gráficos y generación de imágenes 2D, video y 3D habilitada para IA. La plataforma L40 sirve como motor de Omniverso de NVIDIA™, una plataforma para crear y operar aplicaciones de metaverso en el centro de datos, que ofrece un rendimiento de inferencia 7 veces superior para difusión estable y un rendimiento omniverso 12 veces superior a la generación anterior.
  • NVIDIA H100 NVL para implementación de modelo de lenguaje grande es ideal para implementar LLM masivos como ChatGPT a escala. El nuevo H100 NVL con 94 GB de memoria con aceleración de Transformer Engine ofrece un rendimiento de inferencia hasta 12 veces más rápido en GPT-3 en comparación con la generación anterior A100 a escala de centro de datos.
  • NVIDIA Grace Hopper para modelos de recomendación es ideal para modelos de recomendación de gráficos, bases de datos vectoriales y redes neuronales de gráficos. Con la conexión NVLink®-C2C de 900 GB/s entre la CPU y la GPU, Grace Hopper puede ofrecer transferencias de datos y consultas 7 veces más rápidas en comparación con PCIe Gen 5.
Recomendado:  Aquí está todo lo que debe saber sobre la seguridad de las aplicaciones

La capa de software de las plataformas presenta la Paquete de software NVIDIA AI Enterpriseque incluye TensorRT de NVIDIA™, un kit de desarrollo de software para la inferencia de aprendizaje profundo de alto rendimiento, y Servidor de inferencia NVIDIA Triton™, un software de servicio de inferencia de código abierto que ayuda a estandarizar la implementación del modelo.

Adopción temprana y apoyo
Google Cloud es un socio clave en la nube y uno de los primeros clientes de las plataformas de inferencia de NVIDIA. Es integrando la plataforma L4 en su plataforma de aprendizaje automáticoVertex AI, y es el primer proveedor de servicios en la nube que ofrece instancias L4, con una vista previa privada de sus máquinas virtuales G2 lanzadas hoy.

Dos de las primeras organizaciones en tener acceso temprano a L4 en Google Cloud incluyen: Descript, que usa IA generativa para ayudar a los creadores a producir videos y podcasts, y WOMBO, que ofrece una aplicación de arte digital de texto impulsada por IA llamada Dream.

Kuaishou, otro de los primeros en adoptar, proporciona una comunidad de contenido y una plataforma social que aprovecha las GPU para decodificar videos entrantes en vivo, capturar fotogramas clave y optimizar audio y video. Luego utiliza un modelo a gran escala basado en transformadores para comprender el contenido multimodal y mejorar las tasas de clics para cientos de millones de usuarios en todo el mundo.

“El sistema de recomendación de Kuaishou sirve a una comunidad que tiene más de 360 ​​millones de usuarios diarios que contribuyen con millones de videos UGC todos los días”, dijo Yue Yu, vicepresidente senior de Kuaishou. “En comparación con las CPU con el mismo costo total de propiedad, las GPU de NVIDIA han aumentado el rendimiento de extremo a extremo del sistema en 11 veces y han reducido la latencia en un 20 %”.

D-ID, una plataforma de tecnología de inteligencia artificial generativa líder, eleva el contenido de video para profesionales mediante el uso de GPU NVIDIA L40 para generar humanos digitales fotorrealistas a partir de texto, lo que le da una cara a cualquier contenido y reduce el costo y la molestia de la producción de video a escala.

“El rendimiento del L40 fue simplemente asombroso. Con él, pudimos duplicar nuestra velocidad de inferencia”, dijo Or Gorodissky, vicepresidente de investigación y desarrollo de D-ID. “D-ID se complace en utilizar este nuevo hardware como parte de nuestra oferta que permite la transmisión en tiempo real de seres humanos con IA con un rendimiento y una resolución sin precedentes, al mismo tiempo que reduce nuestros costos informáticos”.

Seyhan Lee, un estudio de producción de inteligencia artificial líder, utiliza inteligencia artificial generativa para desarrollar experiencias inmersivas y contenido creativo cautivador para las industrias del cine, la transmisión y el entretenimiento.

“La GPU L40 ofrece un impulso increíble en el rendimiento de nuestras aplicaciones de IA generativa”, dijo Pinar Demirdag, cofundador de Seyhan Lee. “Con la capacidad de inferencia y el tamaño de la memoria del L40, podemos implementar modelos de última generación y brindar servicios innovadores a nuestros clientes con una velocidad y precisión increíbles”.

Cohere, un pionero líder en inteligencia artificial del lenguaje, ejecuta una plataforma que permite a los desarrolladores crear modelos de lenguaje natural mientras mantiene la privacidad y la seguridad de los datos.

“La nueva plataforma de inferencia H100 de alto rendimiento de NVIDIA puede permitirnos brindar servicios mejores y más eficientes a nuestros clientes con nuestros modelos generativos de última generación, potenciando una variedad de aplicaciones NLP como IA conversacional, búsqueda empresarial multilingüe e información. extracción”, dijo Aidan Gomez, CEO de Cohere.

Disponibilidad
La GPU NVIDIA L4 está disponible en vista previa privada en Google Cloud Platform y también está disponible en una red global de más de 30 fabricantes de computadoras, incluidos Advantech, ASUS, Atos, Cisco, Dell Technologies, Fujitsu, GIGABYTE, Hewlett Packard Enterprise, Lenovo, QCT y Supermicro.

Recomendado:  El papel de la IA en la automatización de la RAN

La GPU NVIDIA L40 está disponible actualmente a través de los principales fabricantes de sistemas, incluidos ASUS, Dell Technologies, GIGABYTE, Lenovo y Supermicro, y la cantidad de plataformas asociadas se ampliará a lo largo del año.

El Grace Hopper Superchip está probando ahora, y se espera que esté en plena producción en la segunda mitad del año. La GPU H100 NVL también se espera para la segunda mitad del año.

NVIDIA AI Enterprise ahora está disponible en los principales mercados de la nube y de docenas de proveedores de sistemas y socios. Con NVIDIA AI Enterprise, los clientes reciben NVIDIA Enterprise Support, revisiones periódicas de seguridad y estabilidad de API para NVIDIA Triton Inference Server, TensorRT y más de 50 modelos y marcos preentrenados.

Los laboratorios prácticos para probar la plataforma de inferencia NVIDIA para IA generativa están disponibles de inmediato sin costo en Plataforma de lanzamiento de NVIDIA. Los laboratorios de muestra incluyen la capacitación y la implementación de un chatbot de soporte, la implementación de una carga de trabajo de IA integral, el ajuste y la implementación de un modelo de idioma en H100 y la implementación de un modelo de detección de fraude con NVIDIA Triton™.