Alexander Huth se instaló en una máquina de resonancia magnética en el edificio de investigación de neurociencia de Austin, Texas, donde trabajaba, se cubrió con una manta acogedora para evitar el frío del imán de la máquina y auriculares insonorizados para ahogar su zumbido. Sin embargo, el sonido en los auriculares se escucha alto y claro.
“Del New York Times y WBUR Boston, esto es ‘Modern Love’”, comenzaba el podcast.
Escuchar esas líneas estimuló la actividad cerebral, las neuronas se dispararon y consumieron el oxígeno en su sangre. A medida que la sangre desoxigenada fluía de regreso a sus pulmones y corazón, el imán captó su señal, traicionando qué partes de su cerebro estaban procesando lo que había escuchado. Y al otro lado del cristal, un grupo de neurocientíficos miraban nerviosos los datos, tratando de escuchar el podcast con solo mirar los escáneres cerebrales de su asesor.
En un nuevo artículo de Nature Neuroscience publicado el lunes, Huth y un equipo de investigadores de la Universidad de Texas en Austin presentaron un nuevo «decodificador cerebral» habilitado por GPT-1, una versión anterior de la tecnología de red neuronal artificial que sustenta ChatGPT. Después de digerir varias horas de datos de entrenamiento, la nueva herramienta pudo describir la esencia de las historias que escucharon los tres participantes en el experimento de prueba de concepto, simplemente mirando sus resonancias magnéticas funcionales.
Si bien es reductivo decir que los científicos han desarrollado una forma de leer la mente, la combinación de un modelo de lenguaje grande con la cantidad extrema de datos de fMRI permitió a Huth y sus compañeros de trabajo acercarse más que nadie. Los decodificadores cerebrales anteriores se centraban en las partes del cerebro que controlan las funciones motoras como el habla, pero con el nuevo decodificador, los científicos pudieron generar descripciones de los videos que vieron los participantes, como los cortometrajes de Pixar, que no contenían palabras habladas.
Huth, profesor asistente de neurociencia e informática en la Universidad de Texas en Austin, dudó en decir que él y su equipo están midiendo pensamientos. Pero, dijo, «creo que estamos decodificando algo que es más profundo que el lenguaje».
Francisco Pereira, científico del personal del Instituto Nacional de Salud Mental que ha trabajado en decodificadores cerebrales durante más de una década, dijo que la última vez que los científicos intentaron hacer esto, con la tecnología disponible en 2015 habrían tenido «suerte si hubiéramos tenido dos palabras juntas que tenían sentido, pero no se acercarían en nada al rendimiento que obtienen aquí”.
De los hallazgos, “lo único que podría estar impresionado, porque sé lo difícil que es hacer esto”, dijo Pereira, quien no participó en la investigación.
La parte principal del estudio utilizó solo tres participantes. Parte del motivo del pequeño grupo de muestra es que es muy difícil lograr que los participantes permanezcan lo suficientemente quietos, durante aproximadamente dos horas a la vez, más de 16 sesiones, en el escáner. “Hemos pasado por muchos participantes que simplemente no se quedan quietos y no puedes usar sus datos”, dijo Shailee Jain, Ph.D. candidato en el laboratorio de Huth y coautor del artículo. Incluso “mover los dedos de las manos o de los pies puede mover los músculos del cuerpo y afectar los datos”, dijo.
Debido a que los buenos datos son un cuello de botella en este campo, es bastante rutinario para los neurocientíficos pasar por debajo del imán en sus propios estudios. Tener piel en el juego significa que los investigadores están muy motivados para prestar atención y quedarse quietos, que es una de las razones por las que Huth dijo que se convirtió en uno de los participantes. En cuanto a la pregunta de si eso podría afectar los datos, «simplemente significa que lo que informan es probablemente tan bueno como podría ser dadas las técnicas y métodos actuales que utilizan», dijo Greta Tuckute, Ph.D. candidato en el departamento de ciencias cognitivas y del cerebro del Instituto Tecnológico de Massachusetts, que no participó en el estudio.
Normalmente, para este tipo de estudios, las palabras parpadean en una pantalla frente al participante a un ritmo fijo, o escuchan palabras individuales, como «gato», «perro» o «caballo», dijo Jain. Pero para este estudio, cuyo objetivo era decodificar el «lenguaje continuo» en lugar de palabras individuales, los investigadores utilizaron historias de audio de «Modern Love» y «The Moth Radio Hour» para las 16 horas de datos de capacitación, lo que mantuvo mucho más el interés de los participantes. fácilmente.
“Las historias de Moth han sido geniales. He llorado después de escucharlos. Me he reído mucho”, dijo a STAT un participante anónimo del estudio. Esa risa, desafortunadamente, también hizo difícil no moverse. “Es una espada de doble filo”.
Resulta que las historias atractivas son un componente importante para obtener buenos datos; si un participante deja de prestar atención a los estímulos o su mente se distrae, los investigadores no pueden entrenar el modelo y el experimento no funciona.
De alguna manera, el hecho de que sea tan difícil obtener buenos datos para el decodificador cerebral es una característica, no un error: la necesidad de la cooperación del paciente para construir el modelo crea una protección integrada para la privacidad del paciente.
“Es importante evaluar constantemente cuáles son las implicaciones de los nuevos decodificadores cerebrales para la privacidad mental”, dijo Jerry Tang, Ph.D. candidato en el laboratorio de Huth y autor principal del artículo, en una rueda de prensa.
Al idear formas de proteger la privacidad, los autores pidieron a los participantes que trataran de evitar que el decodificador reconstruyera las palabras que estaban escuchando de varias maneras diferentes. Los métodos particularmente efectivos incluyeron enumerar mentalmente a los animales, y contar una historia diferente al mismo tiempo que se reproducía el podcast fueron particularmente efectivos para detener el decodificador, dijo Tang. Los autores también encontraron que el decodificador tuvo que ser entrenado en los datos de cada sujeto y no fue efectivo cuando se usó en otra persona.
Entre estos hallazgos y el hecho de que cualquier movimiento empeoraría las exploraciones de fMRI, los autores concluyeron que actualmente no es posible que un decodificador cerebral se use en contra de su voluntad.
“No creo que esto se vaya a usar para violar la privacidad de las personas”, dijo Pereira, y señaló que existen otras formas de comportamiento para determinar si alguien miente o si reconoce una imagen. “O si lo es, y las personas están en una situación en la que pueden obligarte a estar en el escáner durante 16 horas y de alguna manera hacerte pensar en las cosas, ya estás en una situación bastante comprometida”.
Pereira apreció por qué el equipo realizó los experimentos de privacidad mental, ya que se le hicieron preguntas similares sobre la privacidad mental a lo largo de los años. Pero se rió un poco por la frustración, sabiendo lo difícil que es lograr que un participante se centre en un tema en particular para empezar. «¡Vamos!» él dijo. “Pasamos todo este tiempo en el escáner, escaneándonos durante muchas horas para asegurarnos de obtener uno sujeto que no está pensando en el almuerzo!”
Huth ha estado trabajando en decodificadores de lenguaje desde que era estudiante de posgrado en el laboratorio de Jack Gallant en la Universidad de California, Berkeley. Gallant se centró en averiguar cómo el cerebro procesa la visión, pero Huth fue el primero en decir: «‘Bueno, espera un minuto… deberíamos poder tomar estas mismas herramientas y aplicarlas al lenguaje'», dijo Gallant, un profesor de psicología y neurociencia en Berkeley. “Y eso funcionó muy bien; en realidad funcionó mejor de lo que funcionó en la visión”, dijo.
Hay dos componentes clave que hicieron posible el nuevo decodificador cerebral: el tesoro de datos recopilados sobre unos pocos participantes, en lugar de las pocas horas habituales de datos sobre muchos participantes, y el advenimiento de los modelos de lenguaje.
“Francamente… [MRI] las mediciones de hoy son tan malas como lo eran hace 10 años”, dijo Gallant. “Pero lo que ha cambiado es el poder y la disponibilidad de modelos de lenguaje como GPT, BERT, PaLM y otros, que Huth usó para “mejorar drásticamente el rendimiento de sus modelos de codificación y decodificación”, según Gallant.
Un modelo de codificación cerebral va desde el estímulo, en este caso, las palabras que se dicen en el podcast, hasta una predicción de cómo se verá la actividad cerebral. Un modelo de decodificación hace exactamente lo contrario: toma escaneos cerebrales y predice qué estímulo, en este caso, palabras, produjo la actividad cerebral. Por lo tanto, si puede resolver uno de esos problemas, puede resolver el otro, dijo Gallant.
Esta relación entre la codificación y la decodificación es lo que hace que los neurocientíficos como Tuckute digan que el trabajo es «una buena prueba de concepto», pero sobre todo «una buena obra de ingeniería».
“La decodificación del cerebro no es algo particularmente valioso desde el punto de vista científico”, coincidió Gallant. “Básicamente es aplicar la ciencia que has aprendido para construir un dispositivo”.
El decodificador que creó Huth nunca pregunta directamente en qué estaba pensando una persona. En su lugar, utiliza un modelo de «codificación» en un bucle para crear el efecto de «descodificación».
Los investigadores utilizaron GPT-1 para generar posibles conjeturas sobre qué frases escuchó la persona. Luego, utilizando el modelo de «reenvío» o «codificación» que predice la actividad cerebral en función de una frase, modelaron la actividad cerebral que esa frase podría evocar. Al comparar el escaneo predicho con el escaneo real, clasificaron las frases adivinadas de mejor a peor e iteraron, agregando más palabras a la frase.
Aunque decodificar historias completas puede parecer más difícil que decodificar palabras individuales, como se ha intentado en los estudios de «perros», «gatos» y «caballos», predecir historias es en realidad más fácil debido a la forma en que se recopilan actualmente los datos cerebrales.
Debido a que una persona puede procesar varias palabras en un solo segundo, la medición del lenguaje a través de fMRI, cuya señal es lenta y dura varios segundos, significa que cualquier señal es un promedio de varias palabras, dijo Gallant. “Puedes entrecerrar los ojos y ser como un adivino leyendo las hojas de té y tratar de hacerte creer que estás descifrando. Y tal vez sea bueno a veces, pero en general, es muy, muy malo”.
Este efecto hizo que fuera casi imposible decodificar palabras sueltas o incluso grupos de palabras en estudios anteriores. También es por eso que el decodificador cerebral generalmente solo puede capturar la esencia de lo que escuchó el participante.
Huth notó que el modelo es particularmente malo con los pronombres. No está claro si esto se debe al modelo de lenguaje artificial que usó el estudio o porque esa información está representada en algún lugar del cerebro que es difícil de ver en estos datos.
Sin embargo, los investigadores encontraron que hay tres redes cerebrales diferentes que parecen procesar el lenguaje, tal vez incluso de manera un tanto redundante. “[This] es emocionante porque hay diferentes puntos de vista sobre cómo se estructura el significado en el cerebro”, dijo Tuckute en el MIT, “y dado que muestran que en realidad puedes usar diferentes redes, eso proporciona una perspectiva interesante sobre qué tipo de información está en estas redes diferentes”.
Además, debido a que el lenguaje parece procesarse de manera similar en diferentes idiomas, y debido a que el decodificador parece estar detectando algún tipo de significado o pensamiento en lugar del habla, el decodificador podría funcionar en diferentes idiomas: si el decodificador se entrenó en inglés en alguien que es bilingüe y la persona escuchó el audio en otro idioma que entendió, en teoría, el decodificador debería poder reproducir lo que la persona escuchó en inglés.
Por ahora, sin embargo, esa es una investigación preliminar. Huth y su equipo actualmente están trabajando para hacer que el enfoque sea más práctico para las personas que han sufrido un derrame cerebral, tienen ELA u otros problemas de salud que afectan su habla. El primer paso en ese proceso es utilizar una tecnología menos engorrosa que la resonancia magnética. Un método llamado fNIRS (espectroscopia funcional del infrarrojo cercano) que mide señales similares podría potencialmente hacer lo mismo, pero también se puede usar en la cabeza, dijo Gallant.
Mientras tanto, Huth está escribiendo protocolos de investigación con cláusulas que no han sido necesarias antes. Por ejemplo, «decirle a la gente que no vamos a intentar decodificar nada excepto los escaneos en los que decimos explícitamente al principio: ‘Este es un escaneo durante el cual podríamos tratar de decodificar su actividad cerebral'», dijo con una sonrisa. “Lo que parece una buena política”.