Saltar al contenido

La tecnología podría conducir a una comunicación más natural para las personas que han sufrido pérdida del habla

4 de agosto de 2021

Investigadores de UC San Francisco han desarrollado con éxito una «neuroprótesis del habla» que ha permitido a un hombre con parálisis severa comunicarse en oraciones, traduciendo señales de su cerebro al tracto vocal directamente en palabras que aparecen como texto en una pantalla.

El logro, que fue desarrollado en colaboración con el primer participante de un ensayo de investigación clínica, se basa en más de una década de esfuerzos del neurocirujano de UCSF Edward Chang, MD, para desarrollar una tecnología que permite a las personas con parálisis comunicarse incluso si no pueden para hablar por su cuenta. El estudio aparece el 15 de julio en el Revista de Medicina de Nueva Inglaterra.

«Hasta donde sabemos, esta es la primera demostración exitosa de decodificación directa de palabras completas a partir de la actividad cerebral de alguien que está paralizado y no puede hablar», dijo Chang, la Cátedra Joan y Sanford Weill de Cirugía Neurológica en UCSF, Profesora Distinguida Jeanne Robertson y autor principal del estudio. «Muestra una gran promesa de restaurar la comunicación al aprovechar la maquinaria del habla natural del cerebro».

Cada año, miles de personas pierden la capacidad de hablar debido a un derrame cerebral, un accidente o una enfermedad. Con un mayor desarrollo, el enfoque descrito en este estudio podría algún día permitir que estas personas se comuniquen completamente.

Traducir las señales cerebrales al habla

Anteriormente, el trabajo en el campo de la neuroprótesis de la comunicación se ha centrado en restaurar la comunicación a través de enfoques basados ​​en la ortografía para escribir las letras una por una en el texto. El estudio de Chang difiere de estos esfuerzos de una manera crítica: su equipo está traduciendo señales destinadas a controlar los músculos del sistema vocal para hablar palabras, en lugar de señales para mover el brazo o la mano para permitir la escritura. Chang dijo que este enfoque aprovecha los aspectos naturales y fluidos del habla y promete una comunicación más rápida y orgánica.

«Con el habla, normalmente comunicamos información a un ritmo muy alto, hasta 150 o 200 palabras por minuto», dijo, y señaló que los enfoques basados ​​en la ortografía que utilizan mecanografía, escritura y control de un cursor son considerablemente más lentos y laboriosos. «Ir directo a las palabras, como lo estamos haciendo aquí, tiene grandes ventajas porque está más cerca de cómo hablamos normalmente».

Recomendado:  Los sistemas de aprendizaje automático son problemáticos. Por eso los jefes tecnológicos los llaman 'IA' | Juan Naughton

Durante la última década, el progreso de Chang hacia este objetivo fue facilitado por pacientes en el Centro de Epilepsia de UCSF que se sometieron a neurocirugía para identificar el origen de sus convulsiones utilizando conjuntos de electrodos colocados en la superficie de sus cerebros. Estos pacientes, todos los cuales tenían un habla normal, se ofrecieron como voluntarios para analizar sus grabaciones cerebrales en busca de actividad relacionada con el habla. El éxito inicial con estos pacientes voluntarios allanó el camino para el ensayo actual en personas con parálisis.

Anteriormente, Chang y sus colegas del Instituto Weill de Neurociencias de la UCSF mapearon los patrones de actividad cortical asociados con los movimientos del tracto vocal que producen cada consonante y vocal. Para traducir esos hallazgos en reconocimiento de voz de palabras completas, David Moses, PhD, ingeniero postdoctoral en el laboratorio de Chang y uno de los autores principales del nuevo estudio, desarrolló nuevos métodos para la decodificación en tiempo real de esos patrones y modelos estadísticos de lenguaje para mejorar la precisión.

Pero su éxito en la decodificación del habla en los participantes que podían hablar no garantizaba que la tecnología funcionara en una persona cuyo tracto vocal está paralizado. «Nuestros modelos necesitaban aprender el mapeo entre patrones complejos de actividad cerebral y el habla prevista», dijo Moses. «Eso plantea un gran desafío cuando el participante no puede hablar».

Además, el equipo no sabía si las señales cerebrales que controlan el tracto vocal seguirían intactas para las personas que no han podido mover sus músculos vocales durante muchos años. «La mejor manera de averiguar si esto podría funcionar era intentarlo», dijo Moses.

Las primeras 50 palabras

Para investigar el potencial de esta tecnología en pacientes con parálisis, Chang se asoció con su colega Karunesh Ganguly, MD, PhD, profesor asociado de neurología, para lanzar un estudio conocido como «BRAVO» (Restauración de la interfaz cerebro-computadora del brazo y la voz). El primer participante en el ensayo es un hombre de unos 30 años que sufrió un derrame cerebral devastador hace más de 15 años que dañó gravemente la conexión entre su cerebro y su tracto vocal y sus extremidades. Desde su lesión, ha tenido movimientos de cabeza, cuello y extremidades extremadamente limitados, y se comunica mediante el uso de un puntero adherido a una gorra de béisbol para marcar letras en una pantalla.

Recomendado:  ¿Cómo puede el chip de computadora predecir el futuro de la síntesis de genes? Los investigadores dicen que la evolución de los chips de computadora podría informar el futuro de la biología sintética

El participante, que pidió ser referido como BRAVO1, trabajó con los investigadores para crear un vocabulario de 50 palabras que el equipo de Chang pudo reconocer a partir de la actividad cerebral utilizando algoritmos informáticos avanzados. El vocabulario, que incluye palabras como «agua», «familia» y «bueno», fue suficiente para crear cientos de oraciones que expresan conceptos aplicables a la vida diaria de BRAVO1.

Para el estudio, Chang implantó quirúrgicamente una matriz de electrodos de alta densidad sobre la corteza motora del habla de BRAVO1. Después de la recuperación completa del participante, su equipo registró 22 horas de actividad neuronal en esta región del cerebro durante 48 sesiones y varios meses. En cada sesión, BRAVO1 intentó decir cada una de las 50 palabras del vocabulario muchas veces mientras los electrodos registraban las señales cerebrales de su corteza del habla.

Traducir un intento de voz en texto

Para traducir los patrones de actividad neuronal registrada en palabras específicas, los otros dos autores principales del estudio, Sean Metzger, MS y Jessie Liu, BS, ambos estudiantes de doctorado en bioingeniería en el Laboratorio Chang utilizaron modelos de redes neuronales personalizados, que son formas de inteligencia artificial. Cuando el participante intentó hablar, estas redes distinguieron patrones sutiles en la actividad cerebral para detectar intentos de habla e identificar qué palabras estaba tratando de decir.

Para probar su enfoque, el equipo primero le presentó a BRAVO1 oraciones cortas construidas a partir de las 50 palabras del vocabulario y le pidió que intentara decirlas varias veces. Mientras hacía sus intentos, las palabras fueron decodificadas de su actividad cerebral, una por una, en una pantalla.

Luego, el equipo pasó a incitarlo con preguntas como «¿Cómo estás hoy?» y «¿Quieres un poco de agua?» Como antes, el intento de discurso de BRAVO1 apareció en la pantalla. «Estoy muy bien» y «No, no tengo sed».

El equipo descubrió que el sistema podía decodificar palabras de la actividad cerebral a una velocidad de hasta 18 palabras por minuto con una precisión de hasta el 93 por ciento (mediana del 75 por ciento). El modelo de lenguaje que Moses aplicó contribuyó al éxito y que implementó una función de «autocorrección», similar a la que utilizan los programas de reconocimiento de voz y mensajes de texto para consumidores.

Recomendado:  Inteligencia artificial y la regla de oro

Moisés caracterizó los primeros resultados de la prueba como una prueba de principio. «Nos emocionó ver la decodificación precisa de una variedad de oraciones significativas», dijo. «Hemos demostrado que en realidad es posible facilitar la comunicación de esta manera y que tiene potencial para usarse en entornos de conversación».

De cara al futuro, Chang y Moses dijeron que ampliarán el ensayo para incluir a más participantes afectados por parálisis severa y déficits de comunicación. Actualmente, el equipo está trabajando para aumentar la cantidad de palabras en el vocabulario disponible, así como para mejorar la velocidad del habla.

Ambos dijeron que si bien el estudio se centró en un solo participante y un vocabulario limitado, esas limitaciones no disminuyen el logro. «Este es un hito tecnológico importante para una persona que no puede comunicarse de forma natural», dijo Moses, «y demuestra el potencial de este enfoque para dar voz a personas con parálisis severa y pérdida del habla».

Los coautores del artículo incluyen a Sean L. Metzger, MS; Jessie R. Liu; Gopala K. Anumanchipalli, PhD; Joseph G. Makin, PhD; Pengfei F. Sun, PhD; Josh Chartier, PhD; Maximilian E. Dougherty; Patricia M. Liu, MA; Gary M. Abrams, MD; y Adelyn Tu-Chan, DO, todos de UCSF. Las fuentes de financiación incluyeron los Institutos Nacionales de Salud (U01 NS098971-01), filantropía y un acuerdo de investigación patrocinado con Facebook Reality Labs (FRL), que se completó a principios de 2021.

Los investigadores de UCSF llevaron a cabo todo el diseño, ejecución, análisis de datos e informes de los ensayos clínicos. Los datos de los participantes en la investigación fueron recopilados únicamente por UCSF, se mantienen de forma confidencial y no se comparten con terceros. FRL proporcionó comentarios de alto nivel y consejos sobre aprendizaje automático.