Cómo usar Microsoft JARVIS (HuggingGPT) ahora mismo

En el campo de la IA, todos los días se lanzan nuevos modelos de lenguajes grandes y las cosas están cambiando a un ritmo vertiginoso. En solo unos meses de desarrollo, ahora podemos ejecutar un LLM similar a ChatGPT en nuestra PC sin conexión. No solo eso, podemos entrenar un chatbot de IA y crear un asistente de IA personalizado. Pero lo que me ha intrigado recientemente es el enfoque práctico de Microsoft para el desarrollo de IA. Microsoft está trabajando actualmente en una forma avanzada de sistema de inteligencia artificial llamada JARVIS (una referencia obvia a Iron Man de Marvel) que se conecta a múltiples modelos de IA y responde con un resultado final. Su demostración está alojada en Huggingface y cualquiera puede comprobar las capacidades de JARVIS ahora mismo. Entonces, si está interesado, continúe y aprenda a usar Microsoft JARVIS (HuggingGPT) de inmediato.

¿Qué es Microsoft JARVIS (HuggingGPT)?

Microsoft ha desarrollado un tipo de sistema colaborativo único en el que se pueden usar múltiples modelos de IA para lograr una tarea determinada. Y en todo esto, ChatGPT actúa como controlador de la tarea El proyecto se llama JARVIS en GitHub (visitar), y ahora está disponible en Huggingface (por lo tanto, HuggingGPT) para que la gente lo pruebe. En nuestras pruebas, funcionó maravillosamente bien con textos, imágenes, audio e incluso videos.

Funciona de manera similar a cómo OpenAI demostró las capacidades multimodales de GPT 4 con textos e imágenes. Sin embargo, JARVIS va un paso más allá e integra varios LLM de código abierto para imágenes, videos, audio y más. La mejor parte aquí es que también se puede conectar a internet y acceder a los archivos. Por ejemplo, puede ingresar una URL de un sitio web y hacer preguntas al respecto. Eso es genial, ¿verdad?

Puede agregar varias tareas en una sola consulta. Por ejemplo, puede pedirle que genere una imagen de una invasión alienígena y escribir poesía al respecto. Aquí, ChatGPT analiza la solicitud y planifica la tarea. Después, ChatGPT selecciona el modelo correcto (alojado en Huggingface) para lograr la tarea. El modelo seleccionado completa la tarea y devuelve el resultado a ChatGPT.

Finalmente, ChatGPT genera la respuesta utilizando los resultados de inferencia de todos los modelos. Para esta tarea, JARVIS usó el modelo Stable Diffusion 1.5 para generar la imagen y usó ChatGPT para escribir un poema.

Hay tantos como 20 modelos vinculados a JARVIS (Abrazando a GPT). Algunos de ellos son t5-base, stable-diffusion 1.5, bert, bart-large-cnn de Facebook, dpt-large de Intel y más. En resumen, si desea capacidades multimodales en este momento, continúe y consulte Microsoft JARVIS de inmediato. Hemos explicado cómo configurarlo y probarlo ahora mismo aquí:

Paso 1: obtenga las claves para usar Microsoft JARVIS

1. Primero, diríjase a este enlace, inicie sesión en su cuenta de OpenAI y haga clic en «Crear nueva clave secreta» para obtener su Clave API de OpenAI. Guarde la clave en un archivo de Bloc de notas para su uso posterior.

2. A continuación, abra el sitio web huggingface.co (visite) y crea una cuenta nueva.

3. Después de eso, haga clic en este enlace para generar su token Hugging Face. Haga clic en «nueva ficha” en el panel derecho.

4. Aquí, ingrese un nombre (por ejemplo, he ingresado el nombre «jarvis»). Luego, cambie el Rol a «Escribir» y luego haga clic en «Generar una ficha“.

5. A continuación, haga clic en “Copiary el token se copiará en el portapapeles. Guarde el token en un archivo de Bloc de notas.

Paso 2: Comience a usar Microsoft JARVIS (HuggingGPT)

1. Para usar Microsoft JARVIS, abra este enlace y pegue la clave API de OpenAI en el primer campo. Después de eso, haga clic en «Enviar». Del mismo modo, pegue el token Huggingface en el segundo campo y haga clic en «Enviar».

2. Una vez que ambos tokens estén validados, desplácese hacia abajo e ingrese su consulta. Para empezar, le pregunté a JARVIS de qué se trataba la foto y compartió una URL de la imagen

3. Descargó automáticamente la imagen y usó tres modelos de IA para la tarea, incluidos ydshieh/vit-gpt2-coco-en (para convertir una imagen en texto), facebook/detr-resnet-101 (para detección de objetos) y dandelin/vilt-b32-finetuned-vqa (para visualización pregunta-respuesta). Finalmente, concluyó que la foto contiene un gato mirándose en el espejo. ¿No es asombroso?

4. En otro ejemplo, le pedí que transcribir un archivo de audio, y lo hizo usando el modelo OpenAI/whisper-base. Hay muchos casos de uso de JARVIS y puede probarlos en HuggingFace de forma gratuita.

Use múltiples modelos de IA a la vez con HuggingGPT

Así es como puedes usar HuggingGPT para completar una tarea usando diferentes modelos de IA. Probé JARVIS varias veces y funcionó bastante bien, excepto que necesitas quedarte atrás de la cola con bastante frecuencia. No puede ejecutar JARVIS localmente en una PC medio decente, ya que requiere al menos 16 GB de VRAM y alrededor de 300 GB de espacio para varios modelos.

En Huggingface también, no puede clonarlo y omitir la cola en la cuenta gratuita. Debe suscribirse para ejecutar el poderoso modelo en una Nvidia A10G, una GPU grande que cuesta $ 3.15 por hora. De todos modos, eso es todo de nuestra parte. Si desea utilizar CodeGPT en VS Code para obtener asistencia durante la programación, diríjase a nuestra guía vinculada. Y para usar ChatGPT 4 gratis, tenemos una lista lista para ti. Finalmente, si tiene alguna pregunta, háganoslo saber en la sección de comentarios a continuación.