LLaVA: modelo abierto multimodal de IA basado en LLaMA lee imágenes y habla

Un equipo de investigación de cuatro personas de Microsoft y dos universidades de EE. UU. ha publicado LLaVA: The Large Language Visual Assistant es un modelo de IA multimodal basado en los conocidos sistemas de chat de IA. Procesa voz e imágenes, está disponible gratuitamente para fines de investigación: combina un codificador de visión con un gran modelo de lenguaje, la rama de LLaMA Vicuña. LLaVA se ajustó con datos de entrenamiento generados por máquinas y sintetizados a través de la API OpenAI de GPT-4.

El objetivo de los investigadores era entrenar un modelo de lenguaje grande (LLM) para entrada de tiro cero y probar este enfoque de forma multimodal. «Zero shot» significa aquí que el modelo debería poder generar respuestas significativas de inmediato sin más especificaciones (indicaciones). LLaVA es multimodal en el sentido de que acepta instrucciones tanto en formato de texto como de imagen, así como una combinación de ambas modalidades. También es emocionante la nota del equipo de investigación de que LLaVA debería lograr una tasa de éxito de más del 92 por ciento cuando se ajusta para conversaciones científicas de preguntas y respuestas. Si esto se puede confirmar de forma independiente, sería un progreso en comparación con los valores comparativos anteriores.

Los investigadores utilizaron la versión solo de voz de GPT-4 (sin el complemento multimodal) para generar un conjunto multimodal de instrucciones de voz e imagen. A través de la combinación de Vision Encoder y Large Language Model (LLM), LLaVA adquirió habilidades visuales y lingüísticas generales. Según las pruebas iniciales, puede describir instantáneamente imágenes nunca antes vistas en forma de texto y se dice que se comporta de manera similar a la versión multimodal de GPT-4: el equipo informa una tasa de aciertos del 85 por ciento en comparación con la versión multimodal de GPT-4. .

LLaVA Responde Preguntas Sobre Imágenes: Surgió la pregunta “¿Qué debo tener en cuenta al visitar este lugar?” junto con una imagen de prueba. La respuesta proporciona información detallada sobre la escena representada en la imagen y consejos derivados de ella.

(Imagen: Sitio web de LLaVA)

Los puntos de referencia externos no están disponibles porque la versión multimodal GPT 4 solo se ha presentado hasta ahora, pero no está disponible públicamente. Actualmente, solo los socios seleccionados de Microsoft OpenAI tienen acceso a esta versión. El equipo de LLaVA parece pertenecer a este círculo de elegidos, sobre todo porque uno de los investigadores involucrados es empleado de Microsoft. Microsoft es el patrocinador principal de OpenAI y compró la puesta en marcha por un total de 11 mil millones de dólares estadounidenses y aseguró los derechos exclusivos para usar los modelos de IA de OpenAI desde GPT-3. Desde el comienzo de la relación comercial con Microsoft en 2019, todos los modelos de OpenAI son de código cerrado y una caja negra para el resto del mundo. En particular, se sabe poco sobre las capacidades multimodales de GPT-4, ya que, a diferencia del ChatGPT basado en texto, aún no se pueden probar a través de una demostración. Los valores de rendimiento informados por socios exclusivos aún no se pueden verificar de forma independiente.

La publicación de LLaVA permite vislumbrar la sala de máquinas de Microsoft OpenAI y es emocionante porque el equipo ha lanzado el conjunto de datos generados por GPT-4 para el ajuste visual junto con el modelo y el código base. Se puede encontrar más información sobre el proyecto en el sitio web de LLaVA. La demostración de investigación se puede probar en un dominio separado.

Opciones de interacción en la demostración de investigación: el equipo de Microsoft y dos universidades de EE. UU. recopilan datos de los usuarios y solicitan comentarios de los usuarios sobre los resultados generados con LLaVA.

(Imagen: Sitio web de LLaVA)

Una herramienta de calificación bastante simple está integrada en la interfaz, con la cual los usuarios pueden calificar los resultados como buenos o malos (pulgar hacia arriba: voto positivo, pulgar hacia abajo: voto negativo). Además, el contenido no deseado se puede proporcionar con una bandera de advertencia. Para un aviso existente, los usuarios pueden solicitar una nueva respuesta y borrar el historial para comenzar de nuevo. Dos imágenes de prueba se almacenan en la demostración. El modelo tiene pocos mecanismos de seguridad incorporados y no debe usarse (aparentemente es capaz de hacerlo) con fines ilegales, maliciosos, violentos, racistas o sexualmente pornográficos, dice la descripción. Los datos de diálogo del usuario se almacenan «para fines de investigación futura».

Cualquiera que trabaje con él puede «marcar» respuestas inapropiadas (una tarea que, de lo contrario, a menudo la realizan trabajadores de clics mal pagados en Kenia y en otros lugares en donaciones de retroalimentación humana en Reinforcement Learning HF, o por voluntarios en proyectos de crowdsourcing en el espacio de código abierto). Esto se usa para entrenar a un moderador aparentemente automático. Cualquiera que participe aquí debe saber que él o ella está donando datos a Microsoft que el grupo podría potencialmente usar comercialmente, pero a la inversa, el modelo en sí no puede usarse comercialmente.

Microsoft y los demás participantes del proyecto recopilan los datos del usuario «con fines de investigación». Debe tener esto en cuenta antes de comenzar a usar el indicador y cargar sus propias imágenes, por ejemplo. Cualquiera que use la demostración acepta los términos y condiciones. Es una vista previa de la investigación de los Términos de uso solo para uso no comercial, sujeto a los Términos de licencia de LLaMA (licencia a medida no comercial), los Términos de uso de OpenAI y las Prácticas de privacidad de ShareGPT, una plataforma para compartir y retener conversaciones de ChatGPT. (Hilo sobre problemas de privacidad en el repositorio de GitHub de ShareGPT: Aparentemente, actualmente no hay forma de eliminar los datos compartidos a través de ShareGPT).

LLaMA y sus derivados en la zona gris legal

LLaMA aún no ha sido lanzado como código abierto por MetaAI (más sobre eso a continuación) y solo está disponible para socios de investigación seleccionados. Por lo tanto, la restricción para fines no comerciales, puramente científicos, también se aplica al nuevo LLaVA, que los cuatro investigadores de IA Haotian Liu y Yong Jae Lee (Universidad de Wisconsin-Madison), Chunyuan Li (Microsoft Research) y Quingyang Wu (Universidad de Columbia) disponible en GitHub y Hugging Face, incluido el conjunto de datos y los pesos del modelo.

Solo las instituciones de investigación seleccionadas han recibido oficialmente los pesos del modelo, por lo que los derivados de la LLaMA están actualmente sujetos a reservas legales y solo pueden usarse con fines de investigación, pero no comercialmente. Algunas ramificaciones de LLaMA no provienen de una cooperación de investigación, sino de una filtración ilegal de bit torrent y, por lo tanto, están sujetas a reservas aún mayores.

Investigadores aficionados del grupo objetivo

El conjunto de datos sintéticos LLaVA-Instruct-150K está disponible en Hugging Face. Los datos son de abril de 2023. Se utilizó la API GPT-4-0314 como interfaz para la generación. Como señala el equipo de LLaVA, el grupo objetivo principal son los científicos y las personas interesadas en la visión artificial, la PNL, el aprendizaje automático y la IA como pasatiempo. El conjunto de datos está sujeto a la licencia Attribution-NonCommercial 4.0 International y quien lo use también debe observar las reglas de procedimiento de OpenAI. Sus términos de uso excluyen el uso de conjuntos de datos generados por GPT-4 para crear productos de la competencia.

El informe de investigación está disponible en ArXiv.org («Ajuste de instrucción visual»). El código del modelo, incluidos los pesos y una evaluación, está disponible en GitHub. También se pueden enviar preguntas, comentarios y problemas a través de GitHub.

(sí)