La inteligencia artificial está transformando la accesibilidad tecnológica

En la era de Internet, las personas se están acercando más y más: puedes hacer Snapchat con tu amigo de Turquía, hacer videollamadas con tus padres en sus elegantes vacaciones, enviar un mensaje de texto rápido a tu antiguo amigo por correspondencia (ahora tu nuevo amigo del teclado) en Japón. .

Pero a medida que el mundo se acerca, nuestra capacidad de atención se vuelve cada vez más mercantilizada. Pasamos horas navegando por Instagram, mientras pasamos menos tiempo interactuando directamente entre nosotros.

Irónicamente, la inteligencia artificial ahora está cambiando eso.

En marzo de 2021, Google presentó su función Live Captions en los navegadores Chrome. Live Caption utiliza el aprendizaje automático para crear instantáneamente subtítulos en cualquier clip de video o audio, brindando a las personas sordas y con problemas de audición un mayor acceso al contenido de Internet.

En el pasado, y todavía hoy, los subtítulos cerrados estaban preprogramados para formatos de video, o un taquígrafo escribía un subtítulo casi instantáneo que se transmitía por televisión. Sin embargo, en lugares donde los subtítulos no son la «norma», como en aplicaciones como Instagram o TikTok, los subtítulos son casi imposibles de encontrar. Live Caption cambia esto: con unos pocos toques en la pantalla, cualquier usuario puede tener subtítulos instantáneos y precisos que amplían el alcance del audio y el video.

Live Caption de Google es un tipo de procesamiento de lenguaje natural o PNL. La PNL es una forma de inteligencia artificial que utiliza algoritmos para facilitar una especie de «interacción» entre personas y máquinas. Los PNL nos ayudan a decodificar los lenguajes humanos en lenguajes de máquina y, a menudo, viceversa.

Para comprender la historia de la PNL, tenemos que remontarnos a uno de los científicos más ingeniosos de la era moderna: Alan Turing. En 1950, Turing publicó “Computing Machinery and Intelligence”, que discutía la noción de computadoras inteligentes y pensantes. Afirmó que no había argumentos convincentes contra la idea de que las máquinas pudieran pensar como humanos y propuso el «juego de imitación», ahora conocido como la prueba de Turing. Turing sugirió una forma de medir si la inteligencia artificial puede o no pensar por sí misma: si pudiera engañar correctamente a un humano haciéndole creer que es un humano con cierta probabilidad, se puede considerar inteligente.

De 1964 a 1966, el científico alemán Joseph Weizenbaum escribió un algoritmo de PNL conocido como ELIZA. ELIZA utilizó técnicas de combinación de patrones para crear una conversación. Por ejemplo, en el guión de DOCTOR, si un paciente le dijera a la computadora «me duele la cabeza», respondería con una frase similar a «¿por qué te duele la cabeza?» Ahora se considera que ELIZA es uno de los primeros chatbots y uno de los primeros en engañar a un humano en un tipo limitado de Prueba de Turing.

La década de 1980 fue un importante punto de inflexión en la producción de PNL. En el pasado, los sistemas de PNL como ELIZA formaban conversaciones basándose en un conjunto complejo de reglas: la IA no podía «pensar» por sí misma; más bien, era un poco como un chatbot y usaba respuestas «enlatadas» para encajar en el contexto. Cuando el humano decía algo para lo que no tenía una respuesta, daría una respuesta «no direccional» con algo como «Cuéntame más sobre [a topic from earlier in the conversation].

A fines de la década de 1980, los PNL, en cambio, se centraron en modelos estadísticos que les ayudaron a formar conversaciones basadas en la probabilidad.

El reconocimiento de voz moderno La PNL incluye algunos principios comunes, como el reconocimiento de voz, el reconocimiento de audio, la identificación del idioma y la diarización, que pueden distinguir entre hablantes. El sistema Live Caption de Google utiliza tres modelos de aprendizaje profundo para formar los subtítulos: una red neuronal recurrente (RNN) para el reconocimiento de voz, una RNN basada en texto para reconocer la puntuación y una red neuronal convolucional (CNN) para clasificar los eventos de sonido. Estos tres modelos envían señales que se combinan para formar la pista de subtítulos, completa con subtítulos de aplausos y subtítulos de música.

Cuando se reconoce la voz en un formato de audio o video, el reconocimiento automático de voz (ASR) RNN se enciende, lo que permite que el dispositivo comience a transcribir las palabras en texto. Cuando este discurso se detiene, por ejemplo, cuando se reproduce música, el ASR deja de funcionar para conservar la batería del teléfono y activar el [music] etiqueta en el título.

A medida que el texto del habla se formula en un título, la puntuación se forma en la oración completa anterior. La puntuación se ajusta continuamente hasta que los resultados de ASR no interfieren con el significado de la oración completa.

En este momento, Live Caption solo puede crear subtítulos para texto en inglés, pero se está mejorando constantemente y algún día se expandirá a otros idiomas. Las primeras versiones de subtítulos en español, alemán y portugués están disponibles actualmente en Google Meet.

Los PNL centrados en la accesibilidad no se limitan únicamente a crear subtítulos. Otro proyecto de Google, Project Euphonia, está utilizando la PNL para ayudar a las personas con trastornos del habla o del habla atípicos a ser mejor comprendidos por el software de reconocimiento de voz. Project Euphonia recopila entre 300 y 1500 frases de audio de voluntarios con problemas del habla. Estas muestras de audio se pueden «alimentar» a modelos de reconocimiento de voz para entrenar una variedad de deficiencias del habla. Además, el programa crea sistemas de voz simplificados que pueden usar rastreo facial o sonidos simples para señalar diferentes acciones, como encender una luz o reproducir una canción determinada.

Uno de los PNL de ASR más recientes de Google busca cambiar la forma en que interactuamos con los que nos rodean, ampliando el alcance de dónde y con quién podemos comunicarnos. El modo de intérprete de Google usa ASR para identificar lo que está diciendo y escupe una traducción exacta a otro idioma, creando efectivamente una conversación entre personas extranjeras y derribando las barreras del idioma. SayHi también ha utilizado una tecnología similar de traducción instantánea, que permite a los usuarios controlar la rapidez o la lentitud con la que se pronuncia la traducción.

Todavía hay algunos problemas en el sistema ASR. A menudo llamada brecha de acento de IA, las máquinas a veces tienen dificultades para comprender a las personas con acentos o dialectos fuertes. En este momento, esto se está abordando caso por caso: los científicos tienden a usar un modelo de «acento único», en el que se diseñan diferentes algoritmos para diferentes dialectos o acentos. Por ejemplo, algunas empresas han estado experimentando con el uso de sistemas ASR separados para reconocer los dialectos mexicanos del español frente a los dialectos españoles del español.

En última instancia, muchos de estos sistemas de ASR reflejan un grado de sesgo implícito. En los Estados Unidos, el inglés vernáculo afroamericano, también conocido como AAVE, es un dialecto extremadamente común del inglés “tradicional”, hablado con mayor frecuencia por los afroamericanos. Sin embargo, varios estudios han encontrado disparidades raciales significativas en la tasa promedio de error de palabras en diferentes sistemas de ASR, y un estudio encontró que la tasa de error de palabra promedio para los hablantes de raza negra es casi el doble que la de los hablantes de raza blanca en los programas de ASR de Amazon, Apple, Google, IBM y Microsoft.

En el futuro, la creación de un entrenamiento más diverso para la IA que incluya acentos regionales, dialectos y jergas puede ayudar a reducir las disparidades en la precisión de ASR entre razas y etnias.

La tecnología tiene un potencial increíble para unir a las personas, pero cuando las personas se quedan fuera, ya sea como resultado de discapacidades, raza, origen étnico o de otro tipo, puede ser una fuerza divisoria y aislante. Gracias al procesamiento del lenguaje natural, estamos comenzando a llenar estos vacíos entre las personas para construir un futuro más accesible.