Científico de Pandata Tech sobre la importancia de los datos árabes en el futuro construido alrededor de la inteligencia artificial

Hoy en día, el texto que escribimos está siendo procesado por modelos de procesamiento de lenguaje natural en todas partes en línea. Ya sea una plataforma de redes sociales como Twitter o Instagram, un motor de búsqueda, chatbots de servicio al cliente o cualquier otro servicio en línea, el texto se procesa en todas partes para entrenar modelos de lenguaje para que puedan entender el texto del usuario con mayor precisión y mejorar su experiencia.

Algunos ejemplos comunes de cómo funcionan estos modelos:

Cuando interactúa con el motor de búsqueda, el modelo detrás interpreta palabras y frases para comprender la consulta y luego se devuelven los resultados que son relevantes para su consulta. Los minoristas en línea usan algoritmos NLP para determinar qué productos tienen más probabilidades de ser de interés en función de las conversaciones que las personas tienen en plataformas de redes sociales como Twitter o Instagram. Los sistemas de recomendación recomiendan libros, películas, artículos o cualquier otra cosa en base a lo que leemos o escribimos en comentarios y reseñas.

El mundo árabe es un mercado en crecimiento. Es el hogar de algunas de las economías de más rápido crecimiento en el mundo. Y a medida que crecen las economías, también lo hace la demanda de servicios y productos que las satisfagan, incluidos aquellos que dependen de capacidades precisas de PNL en árabe.

Hassan Ghalib, científico principal de datos en Pandata Tech, una empresa enfocada en resolver problemas desafiantes y desarrollar soluciones de alto valor agregado basadas en Big Data, procesamiento de lenguaje natural (NLP) y aprendizaje automático, compartió sus pensamientos sobre los desafíos en PNL árabe.

“En el mundo de la IA y el aprendizaje automático, los datos son el ACEITE. Los modelos de buen rendimiento se entrenan en conjuntos de datos de gran tamaño y naturaleza diversa para que cubran todos los aspectos y la riqueza de un idioma. Muchas arquitecturas novedosas para modelos de lenguaje como The Transformer solo pueden producir buenas métricas si se entrenan en el conjunto de datos correcto. Porque la calidad de los datos junto con la cantidad son el principal impulsor del rendimiento del modelo», dijo.

Un modelo de lenguaje preciso es aquel que se entrena en conjuntos de datos imparciales y es consciente de la diversidad y complejidad de múltiples dialectos, vocabulario y reglas gramaticales. De lo contrario, si un modelo de idioma se entrena en un conjunto de datos que carece de representación de cierta región árabe, su rendimiento podría estar sesgado y podría ofender los valores culturales y los sentimientos de las personas. Por ejemplo, un modelo que predice si es probable que alguien incumpla un préstamo podría discriminar inadvertidamente a personas de ciertas regiones o religiones si se entrena con datos que reflejan solo una perspectiva.

«Si hablamos del idioma árabe, existen algunos desafíos en la PNL árabe debido a la gran cantidad de dialectos que se hablan en todo el mundo árabe, donde cada dialecto tiene su propio vocabulario y reglas gramaticales únicos y conjuntos de datos insuficientes. Los modelos árabes de PNL se entrenaron en tales conjuntos de datos insuficientes. Si nos fijamos en el modelo de lenguaje de última generación disponible para otros idiomas, el primero de la lista es GPT3, entrenado en cientos de miles de millones de tokens/palabras con un tamaño de conjunto de datos de entrenamiento de alrededor de 45 bytes de Terra. tener tantos conjuntos de datos para el árabe que sean verdaderamente representativos de todos los dialectos hablados en diferentes regiones árabes, entonces producir un GPT3 para el mundo árabe no está muy lejos”, agregó Ghalib.

En este mundo tecnológico, las máquinas también están aprendiendo al igual que los humanos, por lo que cuantos más datos les demos a las máquinas, más conscientes y precisas serán. Qatar puede aprovechar esta oportunidad para producir conjuntos de datos masivos que se pueden aprovechar para construir modelos árabes de PNL de primer nivel. Hacer esto no solo preservará el idioma y los valores de Qatar en el futuro mundo tecnológico, sino que también serán pioneros en la región en alcanzar tal hito.