Deepmind de Google ha publicado un documento que propone una familia de modelos de aprendizaje automático con el objetivo de hacer más trabajo con una capacitación mucho menos costosa y que consume menos tiempo.
La ventaja de esto es, afirma el gigante de la tecnología, ahorros masivos de costos ya que la capacitación se está volviendo prohibitivamente costosa rápidamente. La desventaja es que no es tarea fácil combinar el aprendizaje visual con un modelo de lenguaje.
La familia de modelos, llamada Flamingo, es un conjunto de modelos de lenguaje visual (VLM) de pocas tomas de distintos sistemas de software (frente a un modelo más monolítico como GPT-3, por ejemplo). El equipo de Deepmind de Google dice que supera todos los enfoques de aprendizaje previos de pocas tomas, incluso aquellos ajustados con órdenes de magnitud de más datos.
Flamingo se describe en una preimpresión del artículo académico de Deepmind sobre el tema como diseñado [PDF] para tomar entradas combinadas de texto e imagen para llegar a una respuesta de solo texto, dejando un poco de margen de maniobra para que los modelos hagan alguna interpretación. Deepmind utiliza un conjunto de datos interno que creó especialmente para la investigación de ML multimodal. Todos los datos no están etiquetados y se recuperaron de Internet pública por una suma de 43,3 millones de instancias que consisten en 185 millones de imágenes y 182 GB de texto.
En pocas palabras, aquí hay un buen ejemplo de lo que Flamingo hace posible: durante el entrenamiento, solo se le dieron algunos ejemplos para lograr una tarea de inferencia (identificar un animal, resolver un problema matemático, contar tipos de animales en una imagen, etc.) . Después de que se le dijera qué tipo de inferencia querían sus usuarios, se le dio otra imagen y se le pidió que devolviera un texto explicativo de la entrada.
Deepmind basó Flamingo a partir de su propio modelo de lenguaje Chinchilla de 70 mil millones de parámetros lanzado recientemente, que fue entrenado previamente. Deepmind «fusionó» Chinchilla LM con elementos de aprendizaje visual «al agregar componentes de arquitectura novedosos en el medio» que mantienen los datos de entrenamiento aislados y congelados, dándoles el parámetro Flamingo FLM de 80 mil millones.
«Un solo modelo de Flamingo puede lograr resultados de última generación en una amplia gama de tareas, desempeñándose de manera competitiva con enfoques que requieren un ajuste fino específico de la tarea en órdenes de magnitud más ejemplos y, a menudo, requieren ‘trucos’ hechos a mano. «Dijeron los colaboradores de Flamingo de Deepmind.
Los usos potenciales de este modelo de aprendizaje automático son evidentes y no se limitan a lo que Flamingo puede hacer con los datos: el modelo también podría ayudar al estado general del aprendizaje automático, que se enfrenta a un problema de crecientes necesidades de energía e informática. para entrenar modelos más nuevos. Según una estimación, una sola sesión de entrenamiento de Google BERT emitió la misma cantidad de carbono que un vuelo en avión transamericano.
Deepmind no mencionó los costos de energía necesarios para entrenar un modelo Flamingo, aunque lo describe como «computacionalmente costoso de entrenar».
Por otro lado, el documento dijo que Flamingo se puede adaptar rápidamente a entornos de bajos recursos y para tareas de bajos recursos, como la evaluación de datos para PII, sesgos sociales, estereotipos y otros elementos que pueden conducir al problema frecuente de Sesgo de IA.
A pesar de eso, es posible que Flamingo no esté ni cerca de estar listo para el horario de máxima audiencia, y no porque el modelo en sí sea malo: Deepmind admite limitaciones en el entrenamiento de pocas tomas, es decir, que hay demasiadas variables para tener en cuenta cuando un conjunto de datos de entrenamiento es tan pequeño.
«No existe un método de pocos disparos ‘dorado’ que funcione bien en todos los escenarios», dijeron los investigadores detrás de Flamingo. ®