AI se vuelve multilingüe con BLOOM de Hugging Face

Estamos emocionados de traer de vuelta Transform 2022 en persona el 19 de julio y virtualmente del 20 al 28 de julio. Únase a los líderes de inteligencia artificial y datos para charlas perspicaces y oportunidades emocionantes para establecer contactos. ¡Regístrese hoy!

Con todo el entusiasmo y las innovaciones en torno a la inteligencia artificial (IA) en los últimos años, a menudo se ha dejado atrás una cosa clave: la compatibilidad con varios idiomas, además del inglés.

Eso ahora va a cambiar, gracias en parte al lanzamiento de BLOOM (acrónimo de BigScience Large Open-science Open-access Multilingual Language Model). BLOOM comenzó en 2021, con un desarrollo liderado por la startup de aprendizaje automático Hugging Face, que recaudó $100 millones en mayo.

El esfuerzo de BigScience también se beneficia de una amplia gama de colaboradores, incluidos Megatron de Nvidia y los equipos de Microsoft DeepSpeed, además de recibir apoyo de CNRS, la Agencia Nacional de Investigación de Francia. El modelo BLOOM fue construido y entrenado utilizando la supercomputadora Jean Zay que se encuentra en Francia.

BLOOM tiene una arquitectura que es similar al modelo de lenguaje grande GPT-3 de OpenAI, pero con la diferencia fundamental clave de que BLOOM es multilingüe.

“GPT-3 es monolingüe y BLOOM se diseñó desde el principio para ser multilingüe, por lo que se entrenó en varios idiomas y también para incorporar una cantidad significativa de datos de lenguaje de programación”, dijo a VentureBeat Teven Le Scao, ingeniero de investigación de Hugging Face. «BLOOM admite 46 lenguajes humanos y 13 lenguajes de programación, por lo que es una diferencia muy considerable».

Cómo se entrenó a BLOOM con modelos de aprendizaje automático de código abierto

El esfuerzo de BLOOM involucró múltiples componentes, incluida la recopilación de un gran conjunto de datos y luego la construcción de un modelo de entrenamiento.

Recomendado: Dani Kramer - IAM

Le Scao explicó que Hugging Face hizo uso de los proyectos de código abierto Megatron de Nvidia y DeepSpeed de Microsoft, que son esfuerzos diseñados para permitir que los científicos de datos entrenen modelos de lenguaje grandes. Tanto Megatron como DeepSpeed se basan en el marco de aprendizaje automático PyTorch de código abierto. Para BLOOM, los investigadores desarrollaron una bifurcación de los proyectos Megatron y DeepSpeed que permitieron que el modelo mirara todos los diferentes idiomas.

En términos de BLOOM, el proyecto se desarrolló abiertamente y hace uso de su propia licencia abierta que sigue el modelo de la licencia de IA responsable.

“Estamos tratando de definir qué significa el código abierto en el contexto de los grandes modelos de IA, porque en realidad no funcionan como lo hace el software”, dijo Le Scao.

Explicó que el objetivo de la licencia de BLOOM era hacer que el modelo fuera lo más abierto posible, manteniendo al mismo tiempo cierto grado de control sobre los casos de uso que las organizaciones tienen para el modelo.

Cómo encajan los grandes modelos de lenguaje en el procesamiento del lenguaje natural

Los modelos de lenguaje extenso (LLM) son un subconjunto del campo general del procesamiento del lenguaje natural (NLP).

Le Scao dijo que el modelo de lenguaje es como una «unidad atómica» para la PNL, que proporciona los componentes básicos sobre los cuales se pueden construir interacciones y aplicaciones complejas de IA.

Por ejemplo, señaló que no tiene sentido que un modelo de PNL aprenda a resumir y a hablar un idioma al mismo tiempo. Le Scao dijo que un ser humano no aprende a hablar inglés y luego escribe un informe de investigación completo al mismo tiempo. Por lo general, tiene sentido que el ser humano aprenda a hablar el idioma primero.

Casos de uso para modelos multilenguaje como BLOOM

Hasta la fecha, la mayoría de los modelos de lenguaje de IA han usado inglés o chino. BLOOM ahora ampliará los casos de uso, especialmente para hablantes de francés, español y árabe, donde no ha habido un LLM abierto disponible antes.

Además de proporcionar una nueva base para múltiples lenguajes humanos hablados, BLOOM también podría habilitar una nueva era para el desarrollo de código.

El uso de IA para el desarrollo de código es un espacio relativamente incipiente, con Copilot de GitHub, que estuvo disponible de forma general a fines de junio, entre los primeros líderes. Le Scao espera que, debido a la diversidad de lenguajes de programación que comprende BLOOM, ayude a habilitar nuevas aplicaciones para los desarrolladores.

“BLOOM será una plataforma sólida para las aplicaciones de codificación”, dijo Le Scao.

Ahora que BLOOM está listo para su uso, Le Scao también espera que surjan casos de uso nuevos e inesperados.

“Esta es la parte divertida, porque hemos hecho todo el trabajo duro para que BLOOM se ejecute, y ahora todos pueden ejecutar cualquier experimento loco que quieran con un poderoso modelo de lenguaje”, dijo.

La misión de VentureBeat es ser una plaza pública digital para que los responsables de la toma de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Obtenga más información sobre la membresía.