Tenemos que hablar de la diversidad lingüística en la IA

Nuestra capacidad aprendida de usar palabras para construir frases que transmitan información, ideas y emociones de forma organizada nos hace únicos entre los animales. Sin embargo, el lenguaje tiene un significado más allá de la comunicación. Es una expresión de la identidad cultural, una demostración de la existencia de comunidades de pueblos.

Según Ethnologue: Lenguas del Mundo, actualmente hay 7.117 lenguas vivas conocidas. La supervivencia de un idioma depende de muchos factores, entre ellos la prevalencia de su uso en la vida cotidiana. Sin embargo, los servicios cada vez más comunes, como los asistentes personales virtuales, el texto de predicción y las herramientas de reconocimiento del habla y de traducción automática, sólo admiten una fracción de los idiomas mundiales.

El Siri de Apple, por ejemplo, soporta 21 idiomas, el Amazon Alexa ocho, y el Google Home 13. Google Translate soporta 108 idiomas; cinco nuevos (kinyarwanda, odia, tártaro, turkmeno y uyghur) se añadieron en febrero de 2020.

Para la supervivencia del lenguaje, la inteligencia artificial (IA) es a la vez portentosa y prometedora, dice el neoyorquino Daniel Bögre Udell, cofundador de Wikitongues, una plataforma sin fines de lucro que apoya la preservación del lenguaje a través de proyectos como el archivo y los juegos de herramientas para la recuperación del lenguaje.

Dice Udell, la traducción automática y el texto predictivo son herramientas poderosas, pero si tu idioma no es soportado, «es otra capa de presión social para abandonar tu lengua materna por otra cosa».

El reconocimiento de voz aún lucha por entender los diferentes acentos dentro de un mismo idioma, dice. «Escuchamos historias de personas que hablan inglés caribeño que no pueden usar su iPhone o hablar con Alexa».

Udell lanzó Wikitongues en 2013. Lo que comenzó como un canal de YouTube es ahora una red global de más de 1.000 colaboradores de alrededor de 100 países. El proyecto de archivo de vídeo de la plataforma ha salvaguardado cerca de 1.000 historias orales de 500 idiomas.

«Los idiomas son vehículos de expresión cultural, por lo que cuando un idioma muere, una comunidad se ha derrumbado efectivamente», dice Udell, señalando que más de 7.000 idiomas hablados y cientos de lenguajes de signos también están excluidos de las tecnologías basadas en el habla y el texto.

El texto predictivo se basa en sistemas de escritura y el reconocimiento del habla en el procesamiento de audio, ninguno de los cuales funciona para los lenguajes de signos.

En última instancia, para Udell, la diversidad lingüística en la IA es una cuestión de justicia social y del futuro del conocimiento humano, «Nadie debería tener que elegir entre la globalización y su cultura», dice.

El impacto de la inclusión

Unicode es un estándar universal de codificación de caracteres. Los ingenieros de Google participan en los comités que examinan las propuestas para añadir nuevos alfabetos a Unicode y escriben el código de fuente abierta, International Components for Unicode (ICU), que está disponible para los desarrolladores. «ICU es una parte clave de prácticamente todas las computadoras y dispositivos móviles del planeta», dice Craig Cornelius, un ingeniero de software senior de Google.

Cuando se agrega un alfabeto a Unicode, esto impacta profundamente en el acceso de una comunidad a la tecnología y en la prevalencia del uso cotidiano de un idioma. En 2019, por ejemplo, se añadió a Unicode el alfabeto del wancho, idioma hablado por unas 59.000 personas en el noreste de la India, y poco después Google publicó una fuente Noto Sans para el wancho.

«Con herramientas de introducción de fuentes y teclados como KeyMan, la comunidad puede ahora leer y escribir su lenguaje en los ordenadores, comunicarse en los medios sociales y desarrollar contenido web», dice. «Wancho es ahora parte de Internet».

En 2013, Google lanzó google.com.mm en birmano, un idioma muy hablado pero poco apoyado en Myanmar. El birmano se añadió a Google Translate en 2014 y a Gmail en 2015. El crecimiento del uso de la telefonía móvil en Myanmar ha sido fenomenal, dice Cornelius, y añade: «La interfaz de usuario birmana ayudó a muchos nuevos usuarios a participar en Internet». Con el apoyo de Unicode a los birmanos, ahora se dispone de servicios de búsqueda, medios sociales, vídeo, blogs y muchos otros».

El paradigma basado en datos

Unicode apoya la diversidad lingüística. Sin embargo, los servicios basados en la inteligencia artificial que utilizan tecnologías de aprendizaje automático y de reconocimiento automático del habla (RSA), como los sistemas de traducción y de voz a texto, también necesitan datos. Google Translate, por ejemplo, se basa en un sistema de Traducción Automática Neural (NMT), y esos sistemas requieren grandes cantidades de datos de capacitación para aprender.

Según el equipo de Google Translate, dos de los factores más importantes que afectan a la incorporación de un idioma a la plataforma son la disponibilidad de datos y el compromiso de la comunidad de traductores. El acceso a los datos en inglés, español, árabe y alemán plantea pocos desafíos, pero puede pasar mucho tiempo hasta que se disponga de datos suficientes para añadir un idioma poco utilizado.

Este paradigma basado en los datos es la raíz del desafío de la diversidad lingüística, dice Khalid Choukri, de la Asociación Europea de Recursos Lingüísticos (ELRA), una organización sin fines de lucro creada para promover los recursos lingüísticos y la evaluación para el sector de la tecnología del lenguaje humano, en un contexto europeo. «Todo se basa en el aprendizaje automático a partir de datos, y en el caso de las lenguas con menos recursos, no tenemos suficientes datos para capacitar a nuestras herramientas».

No es un problema pequeño, dice Choukri. Hay múltiples idiomas en uso en algunos países africanos, China e India que tienen un enorme número de hablantes. «Estoy hablando de idiomas con unos pocos millones de hablantes que no tienen acceso a estas tecnologías».

Según Choukri, la industria, el mundo académico y los responsables políticos tienen un papel que desempeñar en la elaboración de soluciones. Se necesitan urgentemente avances en la investigación que permitan procesar conjuntos de datos lingüísticos utilizando menos recursos, dice.

Udell también señala los datos. Cree que se puede encontrar una solución en los esfuerzos de base a través de un conducto de contribución más accesible. «No hay razón por la que no se pueda hacer una recopilación de datos en masa. Eso no sería particularmente caro para estas empresas, pero contribuirá en gran medida a que su tecnología esté disponible más ampliamente».

Los datos obtenidos de la multitud pueden ser útiles para refinar los productos lingüísticos y para construir interfaces de usuario, dice Cornelius. «Sin embargo, uno de los mejores motivadores para aumentar el apoyo a un idioma es cuando el uso del idioma aumenta en línea [via user-generated content on blogs, YouTube, and websites] hasta el punto de que vale la pena desarrollar más herramientas y servicios en ese idioma».

El aumento de la disponibilidad y la mejora del procesamiento de los datos sobre capacitación, la colaboración entre el mundo académico y la industria, el crowdsourcing y la participación de la comunidad serán fundamentales para mejorar la diversidad lingüística en la IA. Si bien Cornelius cree que es poco probable que alguna organización llegue a apoyar plenamente todos los idiomas, «es posible que cada persona encuentre al menos uno de sus idiomas disponible en la tecnología», dice.