Saltar al contenido

Evaluación del enfisema en TC torácicos de baja dosis mediante aprendizaje profundo de múltiples instancias basado en la atención

21 de enero de 2023

Utilizamos MIL para caracterizar el enfisema en la presentación LDCT mediante el uso de redes neuronales convolucionales (CNN) con aprendizaje de transferencia. En este estudio, los términos estándar de MIL «instancia» y «bolsa» se utilizan como sinónimos de corte y tomografía computarizada, respectivamente.

Datos de imágenes de LDCT

Los datos de este estudio retrospectivo que cumple con HIPAA consistieron en 865 escaneos LDCT obtenidos como parte del Programa Internacional de Acción contra el Cáncer de Pulmón Temprano. La División de Ciencias Biológicas de la Universidad de Chicago/Centro Médico de la Universidad de Chicago renunció a la aprobación y el consentimiento informado del IRB debido a la desidentificación de las imágenes antes de su obtención y confirmar que todos los experimentos se realizaron de acuerdo con las pautas y regulaciones pertinentes. Los criterios de selección de imágenes fueron los siguientes: utilizando la base de datos de todos los participantes inscritos en el Programa de acción temprana contra el cáncer de pulmón en Weill Cornell Medical College y la Escuela de medicina Icahn en Mount Sinai entre 1992 y julio de 2017, la exploración LDCT más reciente de 865 participantes con adquisición de LDCT que incluyeron a todos los participantes con enfisema moderado y enfisema severo, y seleccionaron al azar a los participantes restantes entre 3696 participantes disponibles sin enfisema. El enfisema se evaluó mediante puntuación visual de acuerdo con los criterios publicados anteriormente que, en resumen, clasifican las tomografías computarizadas en categorías leves/moderadas si menos de la mitad del volumen pulmonar se presenta con regiones de disminución de la atenuación y grave si más de la mitad ha disminuido. atenuación23. Las exploraciones no fueron sincronizadas, sin realce de contraste y adquiridas siguiendo los parámetros y la información del paciente proporcionada en la Tabla 1. Un radiólogo caracterizó además el enfisema por fenotipo dominante (centrolobulillar, panlobulillar, paraseptal) y otros hallazgos de TC pulmonares no específicos para enfisema utilizando los criterios de Fleischner24. Actualmente, los datos de imágenes no están disponibles públicamente.

Tabla 1 Información de la base de datos.

Aprendizaje de múltiples instancias (MIL)

Por lo general, MIL se plantea como un problema de clasificación binaria en el que los datos se componen en bolsas ({X}_{i}={{x}_{i,1},{x}_{i,2},puntos,{x}_{i,N}}) cada uno de los cuales está compuesto por norte instancias ({x}_{i,j})15,16. Las verdades de instancia correspondientes ({y}_{i,j}in {mathrm{0,1}}) son desconocidos, pero la verdad de la bolsa se determina a partir de las verdades de instancia mediante la regla de decisión binaria

$${Y}_{i}=left{begin{array}{ll}0 & iff sum_{j}^{N}{y}_{i,j}=0 \ 1 & de lo contrario end{matriz}right.$$


Recomendado: ¿Qué es el Big data?.


MIL se puede dividir en tres pasos clave como: (1) Extracción de representaciones de instancia, (2) transformación de representaciones de instancia a representación de bolsa a través de la agrupación MIL y (3) clasificación de representación de bolsa para decisiones clínicamente relevantes25. En total, el proceso es descrito por

$$widehat{{Y}_{i}}=g({varvec{P}}fleft({{varvec{X}}}_{i}right))$$

donde (widehat{{Y}_{i}}) es la etiqueta de la bolsa predicha, ({{varvec{X}}}_{i}) es el conjunto de cortes CT de entrada (imágenes) que se transforman en representaciones de instancia a través de (F)agrupados mediante matriz ({varvec{P}})y transformado en una predicción de bolsa a través de (gramo)25.

Transferir la extracción de características de la instancia aprendida (transferir MIL)

En nuestro estudio, las representaciones instantáneas (fleft({{varvec{X}}}_{i}right)) de los cortes de TC se adquieren a través del aprendizaje de transferencia de una arquitectura VGG19 previamente entrenada26. El aprendizaje de transferencia utiliza modelos grandes con características jerárquicas profundas después de un entrenamiento previo para una tarea similar, en este caso clasificación de imágenes pero en el conjunto de objetos naturales de la base de datos de ImageNet27,28,29. En situaciones en las que hay pocos datos de entrenamiento disponibles, el aprendizaje por transferencia permite la extracción de representaciones de datos ricas y más complejas que las que se pueden lograr entrenando un modelo desde cero. En este estudio, utilizamos una arquitectura VGG-19 entrenada previamente para la clasificación natural de imágenes en ImageNet para extraer características cuantitativas similares al esquema propuesto por Antropova.30.

Luego, las representaciones de la instancia se ingresaron en dos capas completamente conectadas con la activación de ReLU con una tasa de abandono de 0.5.

Agrupación MIL basada en la atención (AMIL)

Los mecanismos de atención se han utilizado ampliamente en el aprendizaje profundo para mejorar el rendimiento y proporcionar interpretabilidad de las predicciones del modelo.31. En nuestro estudio, la matriz de agrupación PAG se construyó a través del mecanismo de atención MIL en el que se adquirió una representación de bolsa a través de un promedio ponderado de representaciones de instancias:

$${varvec{z}}=sum_{n=1}^{N}{a}_{{varvec{n}}}{{varvec{x}}}_{{varvec{n }}} quad quad quad {a}_{n}= frac{exp left({{varvec{w}}}^{T}mathit{tan}hleft({varvec{ V}}{{varvec{x}}}_{n}^{T}right)right)}{{sum }_{j=1}^{N}exp left({{varvec {w}}}^{T}mathit{tan}hleft({varvec{V}}{{varvec{x}}}_{j}^{T}right)right)}$ ps

para parámetros aprendidos ({varvec{w}}in {mathbb{R}}^{128}) y ({varvec{V}}in {mathbb{R}}^{128 mathrm{x} 512}) con norte instancias de entrada ({{varvec{x}}}_{n}^{T}) con dimensión 512 y dimensión oculta 128. Los pesos de atención también proporcionaron resultados interpretables inherentes a la tarea de decisión en forma de instancias influyentes (es decir, cortes), que se evaluaron por separado para la interpretación y validación del modelo.

Los pesos de atención para diferentes clases de exploración (fenotipos de enfisema dominante de centrolobulillar, panlobulillar y paraseptal) se evaluaron escalando los pesos de atención para una exploración dada al rango [0, 1] y trazado en función de la profundidad axial para determinar regiones de alta y baja influencia. La influencia se cuantificó mediante tres métricas: (1) atención máxima de profundidad de la curva de ajuste, (2) promedio ponderado de profundidades de corte ponderadas por atención y (3) rango de valores de atención de la curva de ajuste. El flujo de trabajo completo de Transfer AMIL se proporciona en la Fig. 1.

Figura 1

Figura 1

Modelo de flujo de trabajo del enfoque Transfer AMIL. Esto incluye la extracción de características de imágenes de TC a través de un modelo preentrenado de ImageNet basado en métodos desarrollados por Antropova et al. seguido de la agrupación MIL basada en la atención basada en métodos desarrollados por Ilse et al. Se generan dos salidas para cada entrada de escaneo LDCT, los pesos de atención que identifican cortes influyentes para la tarea de clasificación y la predicción de escaneo para la presencia de enfisema.

Detalles de implementacion

Todos los modelos fueron entrenados en Keras (2.2.4) con Tensorflow backend (2.2.0) en Python (3.7) y optimizados por pérdida de entropía cruzada binaria calculada para predicciones de bolsa. La optimización de Adam se utilizó con parámetros β1= 0,9 y β2= 0,99 y tasa de aprendizaje inicial de 0,0001. Se iniciaba la detención temprana si la pérdida de validación no mejoraba después de 7 épocas. Todos los parámetros aprendidos se inicializaron muestreando una distribución normal.

Capacitación, pruebas y evaluación estadística

Los modelos se entrenaron con el 70 %, 10 % y 20 % de los casos disponibles para entrenamiento, validación y prueba, respectivamente, repetidos 5 veces con diferentes divisiones generadas aleatoriamente. La media y la varianza del área bajo la curva ROC (AUC) se obtuvieron a través de los cinco modelos. Las AUC se compararon a través de la prueba de Delong en cada uno de los cinco pases de entrenamiento con la mediana pag-valor que sirve como métrica para la importancia32.

Métodos comparados

Comparamos Transfer AMIL con otros enfoques que solo requerían anotaciones de escaneo. Se entrenó un clasificador CNN 3D interpolando a un tamaño de entrada fijo de 128 cortes y escaneando la presencia de enfisema que sirve como clase binaria. Además, se entrenó un clasificador 2D estándar mediante la asignación de la clase de verdad del terreno de escaneo a todos los cortes dentro del escaneo, independientemente de la presencia de enfisema dentro de ese corte; esto provocó etiquetas ruidosas durante el entrenamiento, particularmente con muchos cortes positivos falsos para casos de enfisema severo.