Introducción
La capacidad de la inteligencia artificial (IA) para agregar y procesar volúmenes masivos de información está emergiendo como particularmente crucial en el momento actual, especialmente porque la gran cantidad de datos disponibles puede ser abrumadora para que los humanos la evalúen. []. La tecnología de la IA puede aliviar la carga de parte de esta sobrecarga procesando automáticamente el texto escrito de los documentos médicos y convirtiendo el texto en un conjunto de datos más consumible y estructurado que puede ser fácilmente buscado y analizado. Esencialmente, la IA convierte todos los artículos escritos en hojas de cálculo de resultados.
Además, aunque el meta-análisis y la revisión sistemática de la literatura son los estándares de oro de la evidencia []estos análisis requieren un tiempo y un esfuerzo significativos para producir (a menudo hasta 1 año []) y, por lo tanto, rara vez se actualizan [,].
Por lo tanto, para producir esta evidencia de manera más oportuna, proponemos aquí el meta-análisis rápido (RMA). Un RMA sigue la misma metodología marco general de un meta-análisis tradicional, pero aprovecha la tecnología en cada paso, dando un tiempo de producción mucho más rápido. La calidad de algunos datos puede verse comprometida debido al énfasis en el tiempo rápido de producción, pero la capacidad de generar respuestas con tanta rapidez puede justificar este compromiso.
Nos motivó a desarrollar el método de RMA basado en un ejemplo práctico de la necesidad actual de obtener un rápido consenso sobre las pruebas de la literatura. La hidroxicloroquina ha estado disponible desde la década de 1950 [] y se ha utilizado para tratar la malaria, el lupus eritematoso y la artritis reumatoide. Más recientemente, se ha destacado la hidroxicloroquina como una posible intervención para apoyar a los pacientes con enfermedad coronaviral (COVID-19). Aunque los resultados de la eficacia de la hidroxicloroquina son diferentes en cada condición clínica para la que se utiliza, los efectos adversos tienden a ser constantes. En este estudio, utilizamos la ACR para responder a una pregunta clínica específica sobre la hidroxicloroquina y el grado en que la toxicidad ocular es un efecto secundario. Se trata de una pregunta clínica importante; sin embargo, no pudimos encontrar una agregación adecuada de los resultados.
La innovación principal de una RMA es reemplazar tantos pasos del meta-análisis manual como sea posible con la inteligencia de la máquina, como se ha propuesto anteriormente. [,]. Las máquinas no están todavía en el punto en que pueden simplemente dar una respuesta a una pregunta planteada; por lo tanto, la RMA reemplaza en su lugar tantos pasos manuales como sea posible con la asistencia de la máquina (o la IA por completo). El objetivo es que cada paso pueda ser eventualmente reemplazado por la IA.
proporciona un esquema para hacer esta idea más concreta. La izquierda de la figura muestra los pasos estándar (de alto nivel) para el meta-análisis y la derecha muestra los pasos equivalentes con la sustitución de la tecnología.
Para este RMA, aprovechamos la base de datos de resultados clínicos de Evid Science [] para la búsqueda y la detección (aunque cualquier sistema de IA adecuado podría proporcionar un beneficio similar). Esta base de datos se construyó utilizando la IA de Evid Science, que es capaz de convertir el texto escrito de los resultados en una representación «estructurada» (por ejemplo, una fila en una base de datos u hoja de cálculo).
muestra una frase de un artículo sobre la toxicidad detectada en un conjunto de pacientes, que ha sido analizada por la IA de Evid Science. La IA fue capaz de descomponer esta frase en campos (como resultado, intervención y resultado) automáticamente. En particular, sabe que 18 es el número de pacientes, y como eso representa el 30,5% de los pacientes, debe ser 18 de 59. También sabe que 18 se asoció con «Se detecta toxicidad en la retina», en contraste con 5, que se asocia con «deficiencias en la visión del color».
Los enfoques anteriores relacionados con la IA han intentado identificar las frases asociadas con los parámetros de Paciente/Problema, Intervención, Comparación, Resultado (PICO) de los estudios [,]…emergen artículos más relevantes para su análisis… []e incluso las características del estudio, incluyendo el sesgo []. Sin embargo, no pudimos encontrar otra IA que se construyera a propósito para analizar directamente los resultados numéricos completos del texto (por ejemplo, los números y sus campos asociados), que son los insumos necesarios para una investigación avanzada como un meta-análisis.
Para entrenar a la IA para realizar esta tarea, los investigadores de Evid Science emplearon el aprendizaje supervisado de la máquina. En esta metodología, los investigadores dieron inicialmente al sistema ejemplos muy explícitos del tipo de salida que querían; similar al formato mostrado en , estos comprendían conjuntos de frases y los resultados estructurados asociados.
La máquina fue entrenada con un conjunto de datos de miles de tales ejemplos de una amplia variedad de artículos de la literatura. El proceso de aprendizaje permite a la máquina producir estos tipos de salida para nuevas frases. Para que quede claro, los artículos elegidos para la capacitación se seleccionaron de entre múltiples temas de enfermedades y con diversas intervenciones, y no sólo se centraron en la hidroxicloroquina. A medida que el sistema mejora, puede incluso enseñarse a corregir errores, en lugar de tener que empezar con ejemplos nuevos cada vez, limitando así el esfuerzo que supone perfeccionar su aprendizaje.
Métodos
Ciencia Evidente AI
La IA de Evid Science es un modelo de aprendizaje profundo, escrito en pitón, construido a partir de capas de transformadores y unidades bidireccionales de memoria a largo plazo (bi-LSTM). Nuestro modelo primero codifica las entradas usando el modelo de lenguaje de transformadores (SciBERT []), lo que convierte las palabras en un espacio matemático donde se agrupan palabras similares. Estas entradas incrustadas se pasan a través de las capas bi-LSTM de la red, que atraviesan las palabras en el texto y las etiquetan apropiadamente. Entrenamos nuestro algoritmo en 24.614 registros etiquetados.
Rendimiento del modelo
Recientemente, realizamos un análisis de la precisión de la extracción con un doble anotador. Se seleccionaron al azar cien resultados de la base de datos, cada uno de los cuales contiene un registro de resultados (por ejemplo, numerador, denominador, porcentaje, valor de la medida, unidad, grupo de intervención/estudio, resultado) y una frase. Cabe destacar que una sola frase puede asociarse con múltiples resultados; sin embargo, en la aleatorización, elegimos un resultado para etiquetar la exactitud. Además, no todas las frases tienen valores para todos los campos. Entonces etiquetamos los campos extraídos (numerador, denominador, porcentaje, valor de la medida, unidad, intervención/grupo de estudio, resultado) para mayor precisión. Nuestras etiquetas se proporcionan como una hoja de cálculo en .
Las etiquetas podían ser «perfecto» (por ejemplo, un campo se extrajo perfectamente); «casi perfecto» (por ejemplo, el campo contenía palabras adicionales o faltaban algunas palabras, pero era comprensible de otra manera, como un resultado de «remisión alcanzada» contiene la palabra adicional «alcanzado»); o «incorrecto». También incluimos la palabra «desaparecido» como medio para estimar la recordación (la verdadera recordación es difícil de medir, dado que requeriríamos el etiquetado completo de todos los documentos). Las 100 frases y etiquetas se muestran en .
Específicamente, para cada campo, informamos sobre el recuerdo estimado, la precisión (que es la exactitud), la precisión perfecta (la exactitud sólo considera las extracciones perfectas) y la medida F (media armónica entre el recuerdo y la precisión).
Usando el modelo para RMA
Desde una perspectiva práctica, en trabajos anteriores, demostramos un proceso similar a la RMA usando la IA de Evid Science para replicar los resultados de una revisión sistemática de la literatura []. Crucialmente, al aprovechar la IA, produjimos los resultados en 6 días en lugar de los meses que tardamos en producir el original. Además, dado el tiempo entre la publicación original y la versión asistida por la IA, se publicaron 22 nuevos resultados relevantes. Cabe destacar que la versión actual de la IA utilizada para esta RMA es significativamente más potente que la versión utilizada anteriormente para la replicación de la revisión sistemática de la literatura.
La base de datos de resultados clínicos de Evid Science utilizada en esta RMA es el resultado de la ejecución de la IA sobre la totalidad de la literatura médica disponible públicamente (de forma gratuita) (PubMed). La base de datos actual tiene casi 70.000.000 de «hechos» asociados con los resultados de los artículos, que los usuarios pueden buscar y revisar.
La plataforma Evid Science ya ha indexado la totalidad de PubMed, y cada noche, saca los últimos artículos. La arquitectura del sistema se muestra en . Comenzando por la izquierda, los artículos entran en el sistema a través de la interfaz de programación de aplicaciones (API) de PubMed. Luego se aplican clasificadores de aprendizaje automático a los artículos, determinando el tipo de estudio (por ejemplo, estudio de prueba, estudio de observación) y otra información metodológica. A continuación, se aplica al artículo el algoritmo de extracción descrito anteriormente. Cada resultado del algoritmo de extracción se almacena entonces en nuestra base de datos y los usuarios pueden recuperar estos resultados mediante la búsqueda y el filtrado a través de una interfaz de usuario basada en la web. Los resultados finales pueden ser exportados (en formato CSV) para que puedan ser analizados en programas estadísticos sofisticados como R.
Por lo tanto, nuestra RMA procede buscando y revisando esta base de datos, como se describe a continuación. La búsqueda en sí (Paso 1) aprovecha las API de PubMed, y por lo tanto devuelve artículos equivalentes a PubMed. Es decir, cualquier búsqueda en nuestra plataforma se pasa a la API de PubMed, y los artículos devueltos se comparan con lo que nuestra IA ha extraído. Por lo tanto, los resultados iniciales de la búsqueda son equivalentes.
El filtrado se simplifica entonces, ya que la IA ha procesado el texto en registros estructurados que pueden ser filtrados y filtrados eficientemente. Por ejemplo, podemos filtrar simplemente los resultados asociados con la «toxicidad» en el resultado (u otros resultados de interés). Esto es más eficiente que leer manualmente cada resumen devuelto, ya que sólo se filtran los artículos del conjunto filtrado.
Después de la búsqueda y la selección, el usuario obtiene el conjunto de datos final para su análisis (que la IA ayudó a producir mediante la extracción). Uno puede realizar muchos análisis directamente dentro de la herramienta web de Evid Science o exportar los datos a Excel y luego analizarlos con otros programas (como hemos hecho).
Resultados
Proceso de RMA para la asociación de problemas oculares con el uso de hidroxicloroquina
Inicialmente realizamos una búsqueda de hidroxicloroquina en la plataforma de Evid Science y la filtramos hasta obtener resultados en los que el resultado era un importante deterioro de la visión (por ejemplo, «maculopatía», «ceguera», «toxicidad»). En este estudio, nos centramos únicamente en los resúmenes de PubMed, ya que están disponibles gratuitamente. Esto dio lugar a 22 artículos candidatos de un posible conjunto de 5010 artículos relacionados con la hidroxicloroquina, 1352 de los cuales se identificaron como estudios primarios (por ejemplo, un ensayo clínico o un estudio de observación) por nuestra IA y, por lo tanto, se incluyeron como posibles artículos de los que procesar los resultados.
Después de la selección, nos quedamos con 11 artículos para nuestra RMA; los otros 11 artículos excluidos se publicaron antes del 2000 o se centraron en el diagnóstico de problemas oculares. La búsqueda tomó menos de 1 minuto y la selección tomó 22 minutos. La mayor parte del trabajo consistió en seleccionar los papeles y limpiar ligeramente los resultados para que la tabla de resultados fuera más fácil de leer. Dos resultados requirieron una intervención humana «más significativa»: uno de los resultados se informó de que «todos los casos» de ceguera documentada se atribuían a causas distintas de la hidroxicloroquina, por lo que fue necesario invertir este resultado para que fuera de 0 casos atribuidos a la hidroxicloroquina; el otro resultado tenía un denominador mal atribuido, que se fijó manualmente. Todos los demás cambios implicaban la eliminación de palabras sueltas, lo que se requería con muy poca frecuencia en concordancia con los resultados de precisión mostrados en .
Los resultados de los procesos de búsqueda y selección se muestran en , que sirvió como entrada para nuestro cómputo de meta-análisis. Aunque no realizamos la selección equivalente manualmente, en trabajos anteriores, pudimos usar nuestra IA para coincidir con una revisión bibliográfica sistemática publicada sobre la enfermedad inflamatoria intestinal []y, por lo tanto, ya han demostrado que podemos generar con nuestra herramienta un screening equivalente al obtenido con un proceso manual.
Resultados de la extracción basados en 100 resultados seleccionados al azar, doblemente seleccionados.
Ver esta tabla
Resultados de los trabajos incluidos.
Ver esta tabla
Resultado de la RMA
A continuación, realizamos un metaanálisis de los resultados de los artículos examinados utilizando un modelo mixto lineal generalizado (en R), ya que se trata de ocurrencias binarias de un problema ocular. Elegimos un modelo de efectos aleatorios para el análisis, demostrando un resultado de 3,4 eventos de problemas oculares por cada 100 observaciones (IC del 95%: 1,11-9,96). El código para este análisis ya estaba escrito; por lo tanto, conectar los datos () y ejecutarlo llevó aproximadamente 2 minutos, incluyendo la exportación de los datos a Excel, el cambio de nombre y la selección de columnas para ajustarse a la entrada del código R, y la ejecución del código.
El gráfico del bosque del meta-análisis se muestra en . Claramente, había heterogeneidad (I2=97%) entre los estudios; por lo tanto, estos resultados justifican una inspección más profunda y una interpretación cautelosa. Los gráficos de embudo de los resultados se muestran en . Cada paso de nuestro RMA, su salida, y su tiempo se muestran en , mostrando que en conjunto el proceso de RMA tomó aproximadamente 30 minutos para completar.
Discusión
Hallazgos principales
Para la RMA, aprovechamos la base de datos de resultados clínicos de Evid Science para encontrar estudios pertinentes, examinamos la base de datos en busca de estudios centrados en la hidroxicloroquina y en cuestiones de visión, y luego realizamos el cómputo del meta-análisis. Lo más importante es que todo el proceso, desde la búsqueda hasta el análisis, duró menos de 30 minutos. Basándonos en los resultados de 11 estudios (N=3585), podíamos esperar ver problemas oculares importantes el 3,4% (IC del 95%: 1,11%-9,96%) del tiempo cuando se usaba la hidroxicloroquina. Observamos la alta heterogeneidad entre los estudios (I2=97%), requiriendo precaución al interpretar estos resultados. Cabe destacar que una RMA como el presente análisis tiene por objeto aumentar la concienciación y no debe tratarse como una revisión bibliográfica sistemática completa o un meta-análisis que debe guiar estrictamente el tratamiento. Los datos y resultados presentados en este documento son actuales al 11 de abril de 2020.
El paso de revisión de artículos es una de las áreas clave del ahorro de tiempo en la RMA. Aunque hemos descrito las diversas métricas de precisión en , la IA también es capaz de sacar a la superficie características de estudio que pueden ser útiles en la selección para el meta-análisis también. Por ejemplo, muestra varias características de estudio para algunos de los artículos elegidos, incluido el período de tiempo (retrospectivo o prospectivo), el enfoque de cohorte (grupos designados en función de diferentes drogas o condiciones), el tipo de estudio (de prueba o de observación) y, por último, las frases de la metodología. Todas estas características son generadas por la máquina, excepto las frases de metodología, que se emergen del texto automáticamente (en lugar de aplicarse como «etiquetas» a un artículo). En nuestra RMA, optamos por incluir el mayor número posible de puntos de datos, lo que tal vez nos llevó a un alto nivel de heterogeneidad (aunque las diferencias de tamaño de la población también influyen claramente en la heterogeneidad), pero podríamos haber sido más específicos, centrándonos en determinadas características del estudio utilizando los valores suministrados por la IA. Por ejemplo, las frases de la metodología incluyen lugares geográficos, o podríamos habernos centrado únicamente en los trabajos que agrupan a los pacientes por droga, en lugar de por afección. Para una lista completa de las características de todos los artículos, consulte .
Características del estudio, obtenidas por medio de la inteligencia artificial (ver las características de todos los documentos).
Ver esta tabla
Limitaciones
Por supuesto, también hay limitaciones en nuestro enfoque. Un aspecto importante a tener en cuenta es que aunque la RMA puede producir muy rápidamente respuestas a preguntas clínicas, nada (todavía) sustituye al ingenio y la creatividad humana (y lo más importante, el sentido común). Una limitación importante de la RMA actualmente es que la IA no es lo suficientemente sofisticada como para presentar algo más que datos y resultados matemáticos; es decir, no puede hacer interpretaciones significativas.
En este caso, por ejemplo, el resultado es indicativo (3,4 eventos por cada 100 observaciones), pero el intervalo de confianza es amplio y la I2 es alta. Por lo tanto, el resultado de nuestro RMA merece una interpretación cautelosa. Una máquina no puede producir este resumen de matices sino que sólo puede proporcionar los datos y resultados para que una persona los interprete después.
Otra limitación es que los modelos pueden cometer errores. Por supuesto, los seres humanos también cometen errores, pero los errores de los modelos pueden ser contrarios a la intuición. Por ejemplo, en este estudio, uno de los resultados extraídos fue que en todos los casos se había documentado ceguera asociada a algo distinto de la hidroxicloroquina. Esto implica cero casos para la hidroxicloroquina, pero la máquina no se dio cuenta de esto. Es obvio para nosotros como humanos que el resultado inverso es lo que queremos, pero esa es una observación de sentido común. Por lo tanto, hay una compensación entre asumir que habrá algunos errores y la rápida naturaleza de la RMA. Observamos que a menudo también hay errores en el análisis humano.
Una última limitación es la aceptabilidad. Introducimos la RMA como un medio para producir más rápidamente evidencia que puede ser útil en la toma de decisiones clínicas. Sin embargo, sin la confianza y la adopción de evidencia asistida por la IA, tales resultados podrían existir en el vacío. Si ese es el caso, la práctica clínica no se beneficiará del avance. Por lo tanto, esta limitación requiere que, para ser útil, la evidencia actual generada por la IA se acepte de alguna manera. Esperamos que nuestra transparencia en este artículo (presentación de resultados y datos) ayude a introducir algún cambio a este respecto.
Conclusión
En este artículo, hemos presentado un nuevo marco para responder a las preguntas clínicas cuando el tiempo apremia y se puede cambiar por la calidad de los datos. Llamamos a este enfoque RMA, y demostramos su utilidad al responder a una pregunta clínica sobre la toxicidad ocular asociada a la hidroxicloroquina como tratamiento propuesto para COVID-19. Aprovechando el RMA, en aproximadamente 30 minutos fuimos capaces de discernir una posible asociación con una incidencia de 3,4 eventos por cada 100 observaciones (IC del 95%: 1,11-9,96). Aunque los resultados plantean otras cuestiones que deben considerarse (por ejemplo, en relación con la alta heterogeneidad), no dejan de llamar la atención sobre una cuestión clínica pertinente con el fármaco hidroxicloroquina. Es importante señalar que toda la evaluación se completó en menos de 30 minutos, lo que representa un enorme ahorro de tiempo en comparación con los meses que lleva el metaanálisis tradicional realizado a mano.