En el mundo actual, es casi imposible evitar los asistentes digitales controlados por voz. A partir de los agentes inteligentes interactivos utilizados por las empresas, los organismos gubernamentales e incluso los dispositivos personales, los sistemas de reconocimiento automático del habla (RSA), combinados con la tecnología de aprendizaje automático (ML), se utilizan cada vez más como modalidad de entrada que permite a los seres humanos interactuar con las máquinas, ostensiblemente a través de la forma más común y sencilla posible: hablando con una voz natural y conversacional.
Sin embargo, como indicó un estudio publicado en mayo de 2020 por investigadores de la Universidad de Stanford, el nivel de precisión de los sistemas ASR de Google, Facebook, Microsoft y otros varían ampliamente según la carrera del orador. Si bien este estudio sólo se centró en los diferentes niveles de precisión para una pequeña muestra de afroamericanos y hablantes blancos, señala una preocupación mayor sobre la precisión del sistema ASR y la conciencia fonológica, incluida la capacidad de discernir y comprender los acentos, las tonalidades, las variaciones rítmicas y los patrones de habla que pueden diferir de las voces utilizadas para entrenar inicialmente a los robots de chat activados por la voz, los asistentes virtuales y otros sistemas activados por la voz.
El estudio de Stanford, que fue publicado en la revista Las actas de la Academia Nacional de CienciasEl sistema de medición de la tasa de error de la tecnología ASR de Amazon, Apple, Google, IBM y Microsoft, midió las tasas de error de la tecnología ASR de Amazon, Apple, Google, IBM y Microsoft, comparando el rendimiento del sistema en la comprensión de frases idénticas (tomadas de entrevistas pregrabadas a través de dos conjuntos de datos) habladas por 73 hablantes negros y 42 blancos, y luego comparando la tasa media de error de palabras (WER) para los hablantes negros y blancos.
Los sujetos utilizados en las grabaciones encontradas en el primer conjunto de datos eran de Princeville, una comunidad rural predominantemente afroamericana de Carolina del Norte; Rochester, una ciudad de tamaño medio en el oeste del estado de Nueva York, y el Distrito de Columbia. El segundo conjunto de datos fue el de las Voces de California, una recopilación continua de entrevistas grabadas en todo ese estado, aunque se centró en Sacramento, la capital de California, y en el condado de Humboldt, una comunidad rural predominantemente blanca del norte de California.
Los investigadores indicaron que los sujetos negros hablaban en lo que los lingüistas denominan inglés vernáculo afroamericano, una variedad de inglés que a veces hablan los afroamericanos en las zonas urbanas y otras partes de los Estados Unidos.
En general, los investigadores encontraron que los sistemas cometen muchos menos errores con los usuarios que son blancos que con los usuarios que son negros. Los sistemas ASR identificaron erróneamente las palabras alrededor del 19% de las veces con los hablantes blancos, con el WER subiendo al 35% entre los hablantes negros. Aproximadamente el 2% de los fragmentos de audio de los blancos fueron considerados ilegibles por estos sistemas, en comparación con el 20% de los fragmentos hablados por los negros.
«Nuestro trabajo plantea que gran parte de la disparidad se debe probablemente a la falta de datos de formación sobre los afroamericanos y el habla del inglés vernáculo afroamericano», explica Allison Koenecke, estudiante de doctorado en Stanford en Matemáticas e Ingeniería Computacional, y el primer autor del estudio. «Parece que la falta de datos de formación se debe en particular a las disparidades que surgen del modelo acústico, en oposición al modelo de lenguaje».
Los modelos de entrenamiento acústico se centran en la correcta comprensión de las palabras a pesar de las diferencias de acento, patrones de habla, tono de voz y dicción, en comparación con los modelos de lenguaje, que están diseñados para reconocer diversas palabras y frases utilizadas por los hablantes. Según el estudio, «Nuestras conclusiones indican que las disparidades raciales que vemos surgen principalmente de una brecha en el rendimiento de los modelos acústicos, lo que sugiere que los sistemas se confunden por las características fonológicas, fonéticas o prosódicas del inglés vernáculo afroamericano más que por las características gramaticales o léxicas». La causa probable de esta deficiencia es la insuficiencia de datos de audio de los altavoces negros al entrenar los modelos».
La clave para mejorar la precisión de la RSA entre todos los oradores es utilizar un conjunto más diverso de datos de capacitación, que debe incluir oradores que provengan de orígenes étnicos, culturales y regionales más diversos, según Sharad Goel, coautor del estudio y profesor adjunto de ciencias de la gestión e ingeniería en Stanford.
«Hemos intentado alejarnos del juego de las culpas y decir, ‘oh, pensamos que eres como, ya sabes, bueno o malo porque no lo priorizaste’, pero realmente creemos que esto es importante», dice Goel. «Esperamos que la gente cambie su comportamiento, especialmente estas cinco compañías, pero también más ampliamente en la comunidad de reconocimiento de voz, hacia la mejora de estos resultados».
Las empresas de tecnología ASR pueden estar escuchando ese mensaje alto y claro. Un portavoz de Amazon señaló una declaración publicada después de la publicación del estudio de Stanford, en la que se señalaba que «la equidad es uno de nuestros principios fundamentales de la IA, y estamos comprometidos a hacer progresos en este ámbito … En el último año hemos desarrollado herramientas y conjuntos de datos para ayudar a identificar y tallar el sesgo de los modelos de ML, y los ofrecemos como código abierto para la comunidad en general».
Otros proveedores que utilizan la tecnología de la RSA dicen que, a pesar de su complejidad y capacidad, los modelos de ML requieren una buena dosis de supervisión humana, sobre todo cuando los modelos están capacitados. En algunos casos, los desarrolladores de tecnología de RSA utilizarían una gama relativamente limitada de voces, patrones de habla o acentos para entrenar sus modelos acústicos, con el objetivo de desarrollar rápidamente una solución que pudiera ser desplegada comercialmente. Si bien este enfoque puede dar un alto grado de precisión con altavoces neutrales, puede tener dificultades con los acentos o dialectos que difieren de las voces utilizadas para entrenar el modelo.
«Así que se podría construir una solución rápida y sucia que sea muy potente, pero se doblaría en el primer obstáculo porque no entiende el acento, no entiende la terminología, ni siquiera entiende mi idioma, etc., etc.», dice Andy Peart, director de marketing y estrategia de Artificial Solutions, con sede en Estocolmo (Suecia), desarrollador de la plataforma de conversación centrada en la empresa Teneo. «Diríamos que necesitas pensar en todas estas cosas para construir algo que realmente sea efectivo.»
Peart dice que Soluciones Artificiales utiliza un enfoque híbrido de ML para el entrenamiento. El ML se utiliza para el entrenamiento inicial de los modelos, pero se despliegan ingenieros humanos para asegurarse de que el sistema aprenda continuamente sobre las entradas correctas, lo que puede incluir hacer coincidir las inflexiones y pronunciaciones de la voz del orador con las palabras o intenciones apropiadas.
Además, el sistema está diseñado para asignar una relación de confianza a la precisión del modelo ASR aplicado a las entradas de voz. Si la relación de confianza es inferior a un determinado umbral, el sistema está diseñado para pedir al hablante una aclaración, por ejemplo, preguntando: «¿Quiso decir _____?».
«No nos conformamos con aprender [solely] dentro de la solución, porque entonces se obtiene potencialmente la situación de Microsoft Tay, donde su solución aprende y cambia automáticamente de las entradas sin ningún control de la empresa. Esto sería catastrófico en un entorno comercial», dice Peart, refiriéndose a la capacidad de los usuarios de entrenar al chatbot sin supervisión basado en ML de Tay para que escupa contenidos racistas y de otro modo ofensivos, basándose en entradas de voz y texto y en la falta de moderación de las respuestas de la máquina por parte de ingenieros humanos.
Otros proveedores de RSA señalan que los datos de capacitación inicial deben ser diversos, a fin de que funcionen con precisión para todos los tipos de usuarios. «Para poder entrenar modelos de aprendizaje de máquinas realmente buenos, se necesita una gran cantidad de datos, pero también se necesitan datos diversos», dice Johann Hauswald, cofundador y director de clientes de Clinc, un proveedor de plataformas de IA conversacional con sede en Ann Arbor, MI.
«Recomendamos a los clientes que utilicen plataformas de crowdsourcing para recopilar datos de capacitación», dice Hauswald, citando como ejemplos el Turco Mecánico de Amazon y el CrowdFlower (ahora figura ocho), que incluyen datos de altavoces más diversos. «Tomamos el enfoque de crowdsourcing que [training] datos y no [relying solely on] un pequeño grupo de personas que recogen y entrenan nuestros datos».
Hauswald dice que la otra ventaja de utilizar datos de plataformas de origen colectivo es la capacidad de recopilar una gama más amplia de palabras o frases que significan lo mismo, ampliando así el léxico del sistema ASR (como la identificación correcta de que «y’all» es una versión abreviada y argot de «you all» en los dialectos del sur de los Estados Unidos). Señala que las plataformas hacen la misma pregunta a través de una amplia y diversa gama de hablantes, lo que aumenta la profundidad del modelo de capacitación para tener en cuenta los factores de diferenciación étnicos, regionales, de género y de otro tipo.
«Se obtiene una gran cantidad de datos, pero también de un conjunto diverso de personas», dice Hauswald, «No es una persona la que te da 500 declaraciones, y no son 500 personas las que te dan una sola [phrase].»
Según Hauswald, los sistemas de RSA luchan con el habla muy acentuada simplemente porque hay muchos más datos de entrenamiento que consisten en inglés no acentuado que en el caso de los idiomas con acento extranjero o minoritario. Hauswald dice que los algoritmos de ASR identifican el habla buscando patrones de sonido, y luego los vinculan a las palabras apropiadas, lo que requiere cierta intervención humana para asegurar que incluso cuando los sonidos se pronuncian mal (como los sonidos de la «r» que se pronuncian como sonidos de la «l»), se elija la palabra correcta. Con menos datos disponibles con acento extranjero para analizar, se hace más difícil identificar los patrones que pueden utilizarse para entrenar el modelo con precisión. Una solución es simplemente recopilar y entrenar los modelos de ASR utilizando datos del habla de los hablantes acentuados, y luego utilizar a los humanos para asegurar que el modelo correlacione las pronunciaciones acentuadas con las palabras correctas. Sin embargo, la recopilación de suficientes datos del habla de cada tipo de acento individual está plagada de problemas de computación, tiempo y recopilación de datos.
Una forma de acelerar este proceso es utilizar un concepto llamado aprendizaje por transferencia, una técnica en la que un modelo de RSA se entrena en un gran conjunto de datos, como los hablantes que utilizan el inglés sin acento. Las técnicas básicas que el modelo utiliza para aprender patrones específicos de datos fonéticos y de habla pueden aplicarse luego a un segundo conjunto de datos más pequeño que contiene el habla con acento en inglés. Los parámetros y técnicas del primer conjunto de datos se utilizan como punto de partida para el entrenamiento del segundo conjunto de datos, lo que acelera el proceso de aprendizaje, permitiendo que el nuevo modelo de entrenamiento se centre en las pronunciaciones únicas que se encuentran en el habla acentuada.
«En el caso de los idiomas o dialectos que tienen menos datos de formación, las investigaciones han demostrado que se puede utilizar un idioma que tenga más datos y utilizar el aprendizaje por transferencia para perfeccionar un modelo para el idioma de destino». Hauswald dice. Explica que ese enfoque se ha hecho popular, «inicialmente en el procesamiento de imágenes, pero ahora las mismas técnicas se están aplicando al procesamiento del lenguaje natural y al reconocimiento del habla con bastante éxito». Pero todavía hay que pasar por ese paso de anotar, desinfectar y limpiar los datos a mano».
Más lecturas
Disparidades raciales en el reconocimiento automático del habla, Actas de la Academia Nacional de Ciencias de los Estados Unidos de América7 de abril de 2020. https://doi.org/10.1073/pnas.1915768117
Sesgo de género y dialecto en los subtítulos automáticos de YouTube, Actas del primer taller del ACL sobre la ética en el procesamiento del lenguaje natural…en enero de 2017. DOI: 10.18653/v1/W17-1606
Explicación del modelado acústico: https://www.youtube.com/watch?v=5ktDTa8glaA
Volver al principio
©2020 ACM 0001-0782/20/11
El permiso para hacer copias digitales o en papel de parte o de todo este trabajo para uso personal o en el aula se concede sin cargo, siempre que las copias no se hagan o distribuyan con fines de lucro o de ventaja comercial y que las copias lleven este aviso y la cita completa en la primera página. Los derechos de autor de los componentes de este trabajo que son propiedad de otros que no sean ACM deben ser respetados. Se permite hacer resúmenes con crédito. Para copiar de otra manera, para republicar, para publicar en servidores, o para redistribuir a listas, se requiere un permiso específico previo y/o una cuota. Solicite permiso para publicar en permissions@acm.org o por fax (212) 869-0481.
La Biblioteca Digital es publicada por la Asociación de Maquinaria de Computación. Derechos de autor © 2020 ACM, Inc.
No se han encontrado entradas