En un artículo publicado en la revista Patrones, científicos de la Escuela de Medicina Icahn en Mount Sinai describieron la creación de un nuevo algoritmo automatizado basado en inteligencia artificial que puede aprender a leer datos de pacientes de registros médicos electrónicos. En una comparación lado a lado, demostraron que su método, llamado Phe2vec (FEE-to-vek), identificaba con precisión a los pacientes con ciertas enfermedades, así como el método tradicional «estándar de oro», que requiere mucho más trabajo manual. para desarrollar y realizar.
«Sigue habiendo una explosión en la cantidad y los tipos de datos almacenados electrónicamente en el historial médico de un paciente. Desenredar esta compleja red de datos puede ser muy oneroso, lo que ralentiza los avances en la investigación clínica», dijo Benjamin S. Glicksberg, PhD, Assistant Profesor de Genética y Ciencias Genómicas, miembro del Instituto Hasso Plattner de Salud Digital en Mount Sinai (HPIMS) y autor principal del estudio. «En este estudio, creamos un nuevo método para extraer datos de registros médicos electrónicos con aprendizaje automático que es más rápido y menos laborioso que el estándar de la industria. Esperamos que esta sea una herramienta valiosa que facilite más y menos sesgos, investigación en informática clínica «.
El estudio fue dirigido por Jessica K. De Freitas, una estudiante de posgrado en el laboratorio del Dr. Glicksberg.
Actualmente, los científicos se basan en un conjunto de programas informáticos establecidos, o algoritmos, para extraer registros médicos en busca de nueva información. El desarrollo y almacenamiento de estos algoritmos es administrado por un sistema llamado Phenotype Knowledgebase (PheKB). Aunque el sistema es muy eficaz para identificar correctamente el diagnóstico de un paciente, el proceso de desarrollo de un algoritmo puede llevar mucho tiempo y ser inflexible. Para estudiar una enfermedad, los investigadores primero tienen que revisar montones de registros médicos en busca de datos, como ciertas pruebas de laboratorio o recetas, que están asociadas de forma única con la enfermedad. Luego programan el algoritmo que guía a la computadora para buscar pacientes que tengan esos datos específicos de la enfermedad, que constituyen un «fenotipo». A su vez, los investigadores deben verificar manualmente la lista de pacientes identificados por la computadora. Cada vez que los investigadores quieren estudiar una nueva enfermedad, deben reiniciar el proceso desde cero.
En este estudio, los investigadores probaron un enfoque diferente, uno en el que la computadora aprende, por sí sola, cómo detectar fenotipos de enfermedades y, por lo tanto, ahorrar tiempo y esfuerzo a los investigadores. Este nuevo método Phe2vec se basó en estudios que el equipo ya había realizado.
«Anteriormente, mostramos que el aprendizaje automático sin supervisión podría ser una estrategia altamente eficiente y efectiva para extraer registros de salud electrónicos», dijo Riccardo Miotto, PhD, ex profesor asistente en HPIMS y autor principal del estudio. «La ventaja potencial de nuestro enfoque es que aprende representaciones de enfermedades a partir de los datos en sí. Por lo tanto, la máquina hace gran parte del trabajo que los expertos normalmente harían para definir la combinación de elementos de datos de los registros médicos que mejor describe una enfermedad en particular».
Básicamente, se programó una computadora para rastrear millones de registros médicos electrónicos y aprender a encontrar conexiones entre los datos y las enfermedades. Esta programación se basaba en algoritmos de «incrustación» que habían sido desarrollados previamente por otros investigadores, como lingüistas, para estudiar redes de palabras en varios idiomas. Uno de los algoritmos, llamado word2vec, fue particularmente efectivo. Luego, la computadora fue programada para usar lo que aprendió para identificar los diagnósticos de casi 2 millones de pacientes cuyos datos estaban almacenados en el Sistema de Salud Mount Sinai.
Finalmente, los investigadores compararon la efectividad entre los sistemas nuevo y antiguo. Para nueve de cada diez enfermedades evaluadas, encontraron que el nuevo sistema Phe2vec era tan efectivo como, o funcionaba ligeramente mejor, que el proceso de fenotipado estándar de oro para identificar correctamente un diagnóstico a partir de registros de salud electrónicos. Algunos ejemplos de las enfermedades incluyen demencia, esclerosis múltiple y anemia de células falciformes.
«En general, nuestros resultados son alentadores y sugieren que Phe2vec es una técnica prometedora para el fenotipado a gran escala de enfermedades en los datos de registros médicos electrónicos», dijo el Dr. Glicksberg. «Con más pruebas y refinamientos, esperamos que pueda usarse para automatizar muchos de los pasos iniciales de la investigación en informática clínica, permitiendo así a los científicos enfocar sus esfuerzos en análisis posteriores como el modelado predictivo».
Este estudio fue apoyado por la Hasso Plattner Foundation, la Alzheimer’s Drug Discovery Foundation y una donación de cortesía de la unidad de procesamiento de gráficos de NVIDIA Corporation.