Desarrollar una red neuronal para el conjunto de datos de mamografía de Woods

Puede resultar complicado desarrollar un modelo predictivo de red neuronal para un nuevo conjunto de datos.

Un enfoque es inspeccionar primero el conjunto de datos y desarrollar ideas sobre qué modelos podrían funcionar, luego explorar la dinámica de aprendizaje de modelos simples en el conjunto de datos y, finalmente, desarrollar y ajustar un modelo para el conjunto de datos con un arnés de prueba robusto.

Este proceso se puede utilizar para desarrollar modelos de redes neuronales efectivos para problemas de modelado predictivo de clasificación y regresión.

En este tutorial, descubrirá cómo desarrollar un modelo de red neuronal de perceptrón multicapa para el conjunto de datos de clasificación de mamografías de Wood.

Después de completar este tutorial, sabrá:

Cómo cargar y resumir el conjunto de datos de mamografía de Wood y usar los resultados para sugerir preparaciones de datos y configuraciones de modelos para usar.

Cómo explorar la dinámica de aprendizaje de modelos MLP simples en el conjunto de datos.
Cómo desarrollar estimaciones sólidas del rendimiento del modelo, ajustar el rendimiento del modelo y hacer predicciones sobre nuevos datos.

Empecemos.

Desarrollar una red neuronal para el conjunto de datos de mamografía de Woods
Foto de Larry W. Lo, algunos derechos reservados.

Descripción general del tutorial

Este tutorial se divide en 4 partes; Ellos son:

Conjunto de datos de mamografía de Woods

Dinámica de aprendizaje de redes neuronales
Evaluación robusta del modelo
Modelo final y hacer predicciones

Conjunto de datos de mamografía de Woods

El primer paso es definir y explorar el conjunto de datos.

Trabajaremos con el «mamografía«Conjunto de datos de clasificación binaria estándar, a veces llamado»Mamografía de Woods“.

El conjunto de datos se atribuye a Kevin Woods, et al. y el artículo de 1993 titulado «Evaluación comparativa de técnicas de reconocimiento de patrones para la detección de microcalcificaciones en mamografía».

El foco del problema está en la detección del cáncer de mama a partir de exploraciones radiológicas, específicamente la presencia de grupos de microcalcificaciones que aparecen brillantes en una mamografía.

Hay dos clases y el objetivo es distinguir entre microcalcificaciones y no microcalcificaciones utilizando las características de un objeto segmentado dado.

No microcalcificaciones: caso negativo o clase mayoritaria.

Microcalcificaciones: caso positivo o clase minoritaria.

El conjunto de datos de mamografía es un conjunto de datos de aprendizaje automático estándar ampliamente utilizado, que se utiliza para explorar y demostrar muchas técnicas diseñadas específicamente para la clasificación desequilibrada.

Nota: Para ser claros, somos NO «resolviendo el cáncer de mama“. Estamos explorando un conjunto de datos de clasificación estándar.

A continuación se muestra una muestra de las primeras 5 filas del conjunto de datos

0.23001961,5.0725783, -0.27606055,0.83244412, -0.37786573,0.4803223, ‘- 1’ 0.15549112, -0.16939038,0.67065219, -0.85955255, -0.37786573, -0.94572324, ‘- 1’ -0.78441482, -0.44365372,5.6747053, -0.85955255, -0.37786573, -0.94572324, ‘- 1’ 0.54608818,0.13141457, -0.45638679, -0.85955255, -0.37786573, -0.94572324, ‘- 1’ -0.10298725, -0.3949941, -0.14081588,0.97970269, -0.37786573,1.0135658, ‘- 1’ …<div id="ezoic-pub-ad-placeholder-717" data-inserter-version="2"></div>

0.23001961,5.0725783, -0.27606055,0.83244412, -0.37786573,0.4803223, ‘- 1’

0.15549112, -0.16939038,0.67065219, -0.85955255, -0.37786573, -0.94572324, ‘- 1’

-0.78441482, -0.44365372,5.6747053, -0.85955255, -0.37786573, -0.94572324, ‘- 1’

0.54608818,0.13141457, -0.45638679, -0.85955255, -0.37786573, -0.94572324, ‘- 1’

-0.10298725, -0.3949941, -0.14081588,0.97970269, -0.37786573,1.0135658, ‘- 1’

…

Puede obtener más información sobre el conjunto de datos aquí:

Podemos cargar el conjunto de datos como un DataFrame de pandas directamente desde la URL; por ejemplo:

<div id="ezoic-pub-ad-placeholder-718" data-inserter-version="2"></div> # cargue el conjunto de datos de mamografía y resuma la forma desde pandas importar read_csv # definir la ubicación del conjunto de datos url = «https://raw.githubusercontent.com/jbrownlee/Datasets/master/mammography.csv» # cargar el conjunto de datos df = read_csv (url, header = None) # resumir forma imprimir (df. forma)

# cargue el conjunto de datos de mamografía y resuma la forma

desde pandas importar leer_csv

# definir la ubicación del conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/mammography.csv’

# cargar el conjunto de datos

df = read_csv(url, encabezamiento=Ninguno)

# resumir forma

imprimir(df.forma)

Al ejecutar el ejemplo, se carga el conjunto de datos directamente desde la URL e informa la forma del conjunto de datos.

En este caso, podemos confirmar que el conjunto de datos tiene 7 variables (6 entradas y una salida) y que el conjunto de datos tiene 11,183 filas de datos.

Este es un conjunto de datos de tamaño modesto para una red neuronal y sugiere que una red pequeña sería apropiada.

También sugiere que el uso de la validación cruzada de k-fold sería una buena idea dado que dará una estimación más confiable del rendimiento del modelo que una división de tren / prueba y porque un solo modelo encajará en segundos en lugar de horas o días con el conjuntos de datos más grandes.

A continuación, podemos obtener más información sobre el conjunto de datos observando estadísticas resumidas y una gráfica de los datos.

# mostrar estadísticas resumidas y gráficos del conjunto de datos de mamografía desde pandas importar read_csv desde matplotlib importar pyplot # definir la ubicación del conjunto de datos url = «https://raw.githubusercontent.com/jbrownlee/Datasets/master/mammography.csv» # cargar el conjunto de datos df = read_csv (url, header = None) # mostrar estadísticas resumidas imprimir (df.describe ()) # trazar histogramas df.hist () pyplot.show ()

# mostrar estadísticas resumidas y gráficos del conjunto de datos de mamografía

desde pandas importar read_csv

desde matplotlib importar pyplot

# definir la ubicación del conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/mammography.csv’

# cargar el conjunto de datos

df = read_csv(url, encabezamiento=Ninguno)

# mostrar estadísticas resumidas

imprimir(df.describir())

# trazar histogramas

df.hist()

pyplot.show()

Ejecutar el ejemplo primero carga los datos antes y luego imprime estadísticas de resumen para cada variable.

Podemos ver que los valores son generalmente pequeños con medias cercanas a cero.

0 1 … 4 5 conteo 1.118300e + 04 1.118300e + 04 … 1.118300e + 04 1.118300e + 04 media 1.096535e-10 1.297595e-09 … -1.120680e-09 1.459483e-09 estándar 1.000000e + 00 1.000000e + 00 … 1.000000e + 00 1.000000e + 00 min -7.844148e-01 -4.701953e-01 … -3.778657e-01 -9.457232e-01 25% -7.844148e-01 -4.701953e-01 … -3.778657e-01 -9.457232e-01 50% -1.085769e-01 -3.949941e-01 … -3.778657e-01 -9.457232e-01 75% 3.139489e-01 -7.649473e-02 … -3.778657e-01 1.016613e + 00 máx. 3.150844e + 01 5.085849e + 00 … 2.361712e + 01 1.949027e + 00<div id="ezoic-pub-ad-placeholder-722" data-inserter-version="2"></div>

0 1 … 4 5

conteo 1.118300e + 04 1.118300e + 04 … 1.118300e + 04 1.118300e + 04

media 1.096535e-10 1.297595e-09 … -1.120680e-09 1.459483e-09

estándar 1.000000e + 00 1.000000e + 00 … 1.000000e + 00 1.000000e + 00

min -7.844148e-01 -4.701953e-01 … -3.778657e-01 -9.457232e-01

25% -7.844148e-01 -4.701953e-01 … -3.778657e-01 -9.457232e-01

50% -1.085769e-01 -3.949941e-01 … -3.778657e-01 -9.457232e-01

75% 3.139489e-01 -7.649473e-02 … -3.778657e-01 1.016613e + 00

máx. 3.150844e + 01 5.085849e + 00 … 2.361712e + 01 1.949027e + 00

Luego se crea un gráfico de histograma para cada variable.

Podemos ver que quizás la mayoría de las variables tienen una distribución exponencial, y quizás la variable 5 (la última variable de entrada) es gaussiana con valores atípicos / faltantes.

Es posible que tengamos algún beneficio al usar una transformada de potencia en cada variable para hacer que la distribución de probabilidad sea menos sesgada, lo que probablemente mejorará el rendimiento del modelo.

Histogramas del conjunto de datos de clasificación de mamografías

Puede ser útil saber qué tan desequilibrado está realmente el conjunto de datos.

Podemos usar el objeto Contador para contar el número de ejemplos en cada clase, luego usar esos conteos para resumir la distribución.

El ejemplo completo se enumera a continuación.

# resumir la proporción de clases del conjunto de datos de mamografía desde pandas importar read_csv desde el contador de importación de colecciones # definir la ubicación del conjunto de datos url = «https://raw.githubusercontent.com/jbrownlee/Datasets/master/mammography.csv» # cargue el archivo csv como un marco de datos dataframe = read_csv (url, header = None) # resumir la distribución de clases target = dataframe.values[:,-1] contador = Contador (objetivo) para k, v en counter.items (): por = v / len (objetivo) * 100 print (‘Clase =% s, Recuento =% d, Porcentaje =%. 3f %%’% (k, v, per))<div id="ezoic-pub-ad-placeholder-725" data-inserter-version="2"></div>

# resumir la proporción de clases del conjunto de datos de mamografía

desde pandas importar read_csv

desde colecciones importar Encimera

# definir la ubicación del conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/mammography.csv’

# cargue el archivo csv como un marco de datos

marco de datos = read_csv(url, encabezamiento=Ninguno)

# resumir la distribución de clases

objetivo = marco de datos.valores[[:,–1]

encimera = Encimera(objetivo)

por k,v en encimera.artículos():

por = v / len(objetivo) * 100

imprimir(‘Clase =% s, Recuento =% d, Porcentaje =%. 3f %%’ % (k, v, por))

Ejecutar el ejemplo resume la distribución de clases, confirmando el desequilibrio de clases severo con aproximadamente el 98 por ciento para la clase mayoritaria (sin cáncer) y aproximadamente el 2 por ciento para la clase minoritaria (cáncer).

Clase = «- 1», Recuento = 10923, Porcentaje = 97,675% Clase = «1», Recuento = 260, Porcentaje = 2,325%<div id="ezoic-pub-ad-placeholder-726" data-inserter-version="2"></div>

Clase = «- 1», Recuento = 10923, Porcentaje = 97,675%

Clase = «1», Recuento = 260, Porcentaje = 2,325%

Esto es útil porque si usamos la precisión de clasificación, cualquier modelo que logre una precisión menor a aproximadamente el 97,7% no tiene habilidad en este conjunto de datos.

Ahora que estamos familiarizados con el conjunto de datos, exploremos cómo podríamos desarrollar un modelo de red neuronal.

Dinámica de aprendizaje de redes neuronales

Desarrollaremos un modelo de perceptrón multicapa (MLP) para el conjunto de datos utilizando TensorFlow.

No podemos saber qué modelo de arquitectura de hiperparámetros de aprendizaje sería bueno o mejor para este conjunto de datos, por lo que debemos experimentar y descubrir qué funciona bien.

Dado que el conjunto de datos es pequeño, un tamaño de lote pequeño probablemente sea una buena idea, p. Ej. 16 o 32 filas. Usar la versión de Adam del descenso de gradiente estocástico es una buena idea al comenzar, ya que adaptará automáticamente la tasa de aprendizaje y funciona bien en la mayoría de los conjuntos de datos.

Antes de evaluar los modelos en serio, es una buena idea revisar la dinámica de aprendizaje y ajustar la arquitectura del modelo y la configuración de aprendizaje hasta que tengamos una dinámica de aprendizaje estable, luego buscar sacar el máximo provecho del modelo.

Podemos hacer esto usando una división simple de tren / prueba de los datos y revisar los gráficos de las curvas de aprendizaje. Esto nos ayudará a ver si estamos aprendiendo demasiado o mal; entonces podemos adaptar la configuración en consecuencia.

Primero, debemos asegurarnos de que todas las variables de entrada sean valores de punto flotante y codificar la etiqueta de destino como valores enteros 0 y 1.

<div id="ezoic-pub-ad-placeholder-729" data-inserter-version="2"></div> … # asegúrese de que todos los datos sean valores de punto flotante X = X.astype (‘float32’) # codificar cadenas a números enteros y = LabelEncoder (). fit_transform (y)

...

# asegúrese de que todos los datos sean valores de punto flotante

X = X.astipo(‘float32’)

# codificar cadenas a números enteros

y = LabelEncoder().fit_transform(y)

A continuación, podemos dividir el conjunto de datos en variables de entrada y salida, luego en conjuntos de prueba y tren 67/33.

Debemos asegurarnos de que la división esté estratificada por clase, asegurándonos de que el tren y los conjuntos de prueba tengan la misma distribución de etiquetas de clase que el conjunto de datos principal.

… # dividir en columnas de entrada y salida X, y = gl. Valores[:, :-1], df.values[:, -1] # dividir en conjuntos de datos de prueba y de tren X_train, X_test, y_train, y_test = train_test_split (X, y, test_size = 0.5, stratify = y, random_state = 1)

...

# dividir en columnas de entrada y salida

X, y = df.valores[[:, :–1], df.valores[[:, –1]

# dividir en conjuntos de datos de prueba y de tren

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0,5, estratificar=y, estado_aleatorio=1)

Podemos definir un modelo MLP mínimo.

En este caso, usaremos una capa oculta con 50 nodos y una capa de salida (elegida arbitrariamente). Usaremos la función de activación de ReLU en la capa oculta y el «él_normal”Inicialización de peso, ya que juntos, son una buena práctica.

La salida del modelo es una activación sigmoidea para la clasificación binaria y minimizaremos la pérdida de entropía cruzada binaria.

<div id="ezoic-pub-ad-placeholder-732" data-inserter-version="2"></div> … # definir modelo modelo = secuencial () model.add (Denso (50, activación = ‘relu’, kernel_initializer = «he_normal», input_shape = (n_features,))) model.add (Denso (1, activación = ‘sigmoide’)) # compilar el modelo model.compile (optimizador = «adam», pérdida = «binary_crossentropy»)

...

# definir modelo

modelo = Secuencial()

modelo.agregar(Denso(50, activación=‘relu’, kernel_initializer=‘él_normal’, input_shape=(n_features,)))

modelo.agregar(Denso(1, activación=‘sigmoideo’))

# compilar el modelo

modelo.compilar(optimizador=‘Adán’, pérdida=‘binary_crossentropy’)

Ajustaremos el modelo para 300 épocas de entrenamiento (elegidas arbitrariamente) con un tamaño de lote de 32 porque es un conjunto de datos de tamaño modesto.

Estamos ajustando el modelo a datos sin procesar, lo que creemos que podría ser una buena idea, pero es un punto de partida importante.

… history = model.fit (X_train, y_train, epochs = 300, batch_size = 32, verbose = 0, validation_data = (X_test, y_test))

...

historia = modelo.encajar(X_train, y_train, épocas=300, tamaño del lote=32, verboso=0, validation_data=(X_test,y_test))

Al final del entrenamiento, evaluaremos el desempeño del modelo en el conjunto de datos de prueba y reportaremos el desempeño como la precisión de la clasificación.

… # predecir el conjunto de pruebas yhat = model.predict_classes (X_test) # evaluar predicciones score = precision_score (y_test, yhat) print (‘Precisión:% .3f’% de puntuación)

...

# predecir el conjunto de pruebas

yhat = modelo.predecir_clases(X_test)

# evaluar predicciones

puntaje = puntuación_de_precisión(y_test, yhat)

imprimir(‘Precisión:% .3f’ % puntaje)

Finalmente, trazaremos las curvas de aprendizaje de la pérdida de entropía cruzada en el tren y los conjuntos de prueba durante el entrenamiento.

… # trazar curvas de aprendizaje pyplot.title (‘Curvas de aprendizaje’) pyplot.xlabel (‘Época’) pyplot.ylabel (‘Entropía cruzada’) pyplot.plot (history.history[‘loss’], label = «tren») pyplot.plot (history.history[‘val_loss’], label = «val») pyplot.legend () pyplot.show ()

...

# trazar curvas de aprendizaje

pyplot.título(‘Curvas de aprendizaje’)

pyplot.xlabel(‘Época’)

pyplot.etiqueta(‘Entropía cruzada’)

pyplot.trama(historia.historia[[‘pérdida’], etiqueta=‘entrenar’)

pyplot.trama(historia.historia[[‘val_loss’], etiqueta=‘val’)

pyplot.leyenda()

pyplot.show()

Uniendo todo esto, el ejemplo completo de la evaluación de nuestro primer MLP en el conjunto de datos de supervivencia del cáncer se enumera a continuación.

# ajuste un modelo mlp simple en la mamografía y revise las curvas de aprendizaje desde pandas importar read_csv de sklearn.model_selection importar train_test_split desde sklearn.preprocessing import LabelEncoder de sklearn.metrics importar precision_score de tensorflow.keras import Sequential de tensorflow.keras.layers import Dense desde matplotlib importar pyplot # cargar el conjunto de datos ruta = «https://raw.githubusercontent.com/jbrownlee/Datasets/master/mammography.csv» df = read_csv (ruta, encabezado = Ninguno) # dividir en columnas de entrada y salida X, y = gl. Valores[:, :-1], df.values[:, -1] # asegúrese de que todos los datos sean valores de punto flotante X = X.astype (‘float32’) # codificar cadenas a números enteros y = LabelEncoder (). fit_transform (y) # dividir en conjuntos de datos de prueba y de tren X_train, X_test, y_train, y_test = train_test_split (X, y, test_size = 0.5, stratify = y, random_state = 1) # determinar el número de características de entrada n_features = X.shape[1] # definir modelo modelo = secuencial () model.add (Denso (50, activación = ‘relu’, kernel_initializer = «he_normal», input_shape = (n_features,))) model.add (Denso (1, activación = ‘sigmoide’)) # compilar el modelo model.compile (optimizador = «adam», pérdida = «binary_crossentropy») # encajar en el modelo history = model.fit (X_train, y_train, epochs = 300, batch_size = 32, verbose = 0, validation_data = (X_test, y_test)) # predecir el conjunto de pruebas yhat = model.predict_classes (X_test) # evaluar predicciones score = precision_score (y_test, yhat) print (‘Precisión:% .3f’% de puntuación) # trazar curvas de aprendizaje pyplot.title (‘Curvas de aprendizaje’) pyplot.xlabel (‘Época’) pyplot.ylabel (‘Entropía cruzada’) pyplot.plot (history.history[‘loss’], label = «tren») pyplot.plot (history.history[‘val_loss’], label = «val») pyplot.legend () pyplot.show ()

dieciséis

# ajuste un modelo mlp simple en la mamografía y revise las curvas de aprendizaje

desde pandas importar read_csv

desde sklearn.model_selection importar train_test_split

desde sklearn.preprocesamiento importar LabelEncoder

desde sklearn.métrica importar puntuación_de_precisión

desde tensorflow.keras importar Secuencial

desde tensorflow.keras.capas importar Denso

desde matplotlib importar pyplot

# cargar el conjunto de datos

sendero = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/mammography.csv’

df = read_csv(sendero, encabezamiento=Ninguno)

# dividir en columnas de entrada y salida

X, y = df.valores[[:, :–1], df.valores[[:, –1]

# asegúrese de que todos los datos sean valores de punto flotante

X = X.astipo(‘float32’)

# codificar cadenas a números enteros

y = LabelEncoder().fit_transform(y)

# dividir en conjuntos de datos de prueba y de tren

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0,5, estratificar=y, estado_aleatorio=1)

# determinar el número de características de entrada

n_features = X.forma[[1]

# definir modelo

modelo = Secuencial()

modelo.agregar(Denso(50, activación=‘relu’, kernel_initializer=‘él_normal’, input_shape=(n_features,)))

modelo.agregar(Denso(1, activación=‘sigmoideo’))

# compilar el modelo

modelo.compilar(optimizador=‘Adán’, pérdida=‘binary_crossentropy’)

# encajar en el modelo

historia = modelo.encajar(X_train, y_train, épocas=300, tamaño del lote=32, verboso=0, validation_data=(X_test,y_test))

# predecir el conjunto de pruebas

yhat = modelo.predecir_clases(X_test)

# evaluar predicciones

puntaje = puntuación_de_precisión(y_test, yhat)

imprimir(‘Precisión:% .3f’ % puntaje)

# trazar curvas de aprendizaje

pyplot.título(‘Curvas de aprendizaje’)

pyplot.xlabel(‘Época’)

pyplot.etiqueta(‘Entropía cruzada’)

pyplot.trama(historia.historia[[‘pérdida’], etiqueta=‘entrenar’)

pyplot.trama(historia.historia[[‘val_loss’], etiqueta=‘val’)

pyplot.leyenda()

pyplot.show()

Ejecutar el ejemplo primero ajusta el modelo en el conjunto de datos de entrenamiento, luego informa la precisión de la clasificación en el conjunto de datos de prueba.

Nota: Sus resultados pueden variar dada la naturaleza estocástica del algoritmo o procedimiento de evaluación, o las diferencias en la precisión numérica. Considere ejecutar el ejemplo varias veces y compare el resultado promedio.

En este caso, podemos ver que el modelo funciona mejor que un modelo sin habilidad, dado que la precisión está por encima del 97,7 por ciento, en este caso logrando una precisión del 98,8 por ciento.

A continuación, se crean los gráficos de línea de la pérdida en el tren y los conjuntos de prueba.

Podemos ver que el modelo encuentra rápidamente un buen ajuste en el conjunto de datos y no parece estar sobreajustado o desajustado.

Curvas de aprendizaje del perceptrón multicapa simple en el conjunto de datos de mamografía

Ahora que tenemos una idea de la dinámica de aprendizaje para un modelo MLP simple en el conjunto de datos, podemos considerar el desarrollo de una evaluación más sólida del desempeño del modelo en el conjunto de datos.

Evaluación robusta del modelo

El procedimiento de validación cruzada de k veces puede proporcionar una estimación más confiable del rendimiento de MLP, aunque puede ser muy lento.

Esto se debe a que los modelos k deben ajustarse y evaluarse. Esto no es un problema cuando el tamaño del conjunto de datos es pequeño, como el conjunto de datos de supervivencia al cáncer.

Podemos usar la clase StratifiedKFold y enumerar cada pliegue manualmente, ajustar el modelo, evaluarlo y luego informar la media de las puntuaciones de evaluación al final del procedimiento.

… # preparar la validación cruzada kfold = KFold (10) # enumerar divisiones puntuaciones = lista () para train_ix, test_ix en kfold.split (X, y): # ajustar y evaluar el modelo … … … # resumir todas las puntuaciones print (‘Precisión media:% .3f (% .3f)’% (media (puntuaciones), std (puntuaciones)))

...

# preparar la validación cruzada

kfold = KFold(10)

# enumerar divisiones

puntuaciones = lista()

por train_ix, test_ix en kfold.separar(X, y):

# ajustar y evaluar el modelo …

...

# resumir todas las puntuaciones

imprimir(‘Precisión media:% .3f (% .3f)’ % (significar(puntuaciones), std(puntuaciones)))

Podemos usar este marco para desarrollar una estimación confiable del rendimiento del modelo MLP con nuestra configuración base, e incluso con una variedad de diferentes preparaciones de datos, arquitecturas de modelos y configuraciones de aprendizaje.

Es importante que primero desarrollemos una comprensión de la dinámica de aprendizaje del modelo en el conjunto de datos en la sección anterior antes de usar la validación cruzada de k-veces para estimar el rendimiento. Si comenzamos a ajustar el modelo directamente, podríamos obtener buenos resultados, pero si no, es posible que no tengamos idea de por qué, p. que el modelo se ajustaba demasiado o no.

Si volvemos a realizar cambios importantes en el modelo, es una buena idea volver atrás y confirmar que el modelo está convergiendo adecuadamente.

El ejemplo completo de este marco para evaluar el modelo MLP base de la sección anterior se enumera a continuación.

# k-veces de validación cruzada del modelo base para el conjunto de datos de mamografía de numpy import mean desde numpy import std desde pandas importar read_csv de sklearn.model_selection import StratifiedKFold desde sklearn.preprocessing import LabelEncoder de sklearn.metrics importar precision_score de tensorflow.keras import Sequential de tensorflow.keras.layers import Dense desde matplotlib importar pyplot # cargar el conjunto de datos ruta = «https://raw.githubusercontent.com/jbrownlee/Datasets/master/mammography.csv» df = read_csv (ruta, encabezado = Ninguno) # dividir en columnas de entrada y salida X, y = gl. Valores[:, :-1], df.values[:, -1] # asegúrese de que todos los datos sean valores de punto flotante X = X.astype (‘float32’) # codificar cadenas a números enteros y = LabelEncoder (). fit_transform (y) # preparar la validación cruzada kfold = StratifiedKFold (10, random_state = 1) # enumerar divisiones puntuaciones = lista () para train_ix, test_ix en kfold.split (X, y): # datos divididos X_train, X_test, y_train, y_test = X[train_ix], X[test_ix], y[train_ix], y[test_ix] # determinar el número de características de entrada n_features = X.shape[1] # definir modelo modelo = secuencial () model.add (Denso (50, activación = ‘relu’, kernel_initializer = «he_normal», input_shape = (n_features,))) model.add (Denso (1, activación = ‘sigmoide’)) # compilar el modelo model.compile (optimizador = «adam», pérdida = «binary_crossentropy») # encajar en el modelo model.fit (X_train, y_train, epochs = 300, batch_size = 32, verbose = 0) # predecir el conjunto de pruebas yhat = model.predict_classes (X_test) # evaluar predicciones score = precision_score (y_test, yhat) print (‘>%. 3f’% de puntuación) score.append (puntuación) # resumir todas las puntuaciones print (‘Precisión media:% .3f (% .3f)’% (media (puntuaciones), std (puntuaciones)))

dieciséis

# k-veces de validación cruzada del modelo base para el conjunto de datos de mamografía

desde numpy importar significar

desde numpy importar std

desde pandas importar read_csv

desde sklearn.model_selection importar Estratificado KFold

desde sklearn.preprocesamiento importar LabelEncoder

desde sklearn.métrica importar puntuación_de_precisión

desde tensorflow.keras importar Secuencial

desde tensorflow.keras.capas importar Denso

desde matplotlib importar pyplot

# cargar el conjunto de datos

sendero = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/mammography.csv’

df = read_csv(sendero, encabezamiento=Ninguno)

# dividir en columnas de entrada y salida

X, y = df.valores[[:, :–1], df.valores[[:, –1]

# ensure all data are floating point values

X = X.astype(‘float32’)

# encode strings to integer

y = LabelEncoder().fit_transform(y)

# prepare cross validation

kfold = StratifiedKFold(10, random_state=1)

# enumerate splits

scores = list()

for train_ix, test_ix en kfold.split(X, y):

# split data

X_train, X_test, y_train, y_test = X[[train_ix], X[[test_ix], y[[train_ix], y[[test_ix]

# determine the number of input features

n_features = X.shape[[1]

# define model

model = Sequential()

model.add(Dense(50, activation=‘relu’, kernel_initializer=‘he_normal’, input_shape=(n_features,)))

model.add(Dense(1, activation=‘sigmoid’))

# compile the model

model.compile(optimizer=‘adam’, loss=‘binary_crossentropy’)

# fit the model

model.fit(X_train, y_train, epochs=300, batch_size=32, verbose=0)

# predict test set

yhat = model.predict_classes(X_test)

# evaluate predictions

score = accuracy_score(y_test, yhat)

imprimir(‘>%.3f’ % score)

scores.append(score)

# summarize all scores

imprimir(‘Mean Accuracy: %.3f (%.3f)’ % (mean(scores), std(scores)))

Running the example reports the model performance each iteration of the evaluation procedure and reports the mean and standard deviation of classification accuracy at the end of the run.

Note: Your results may vary given the stochastic nature of the algorithm or evaluation procedure, or differences in numerical precision. Consider running the example a few times and compare the average outcome.

In this case, we can see that the MLP model achieved a mean accuracy of about 98.7 percent, which is pretty close to our rough estimate in the previous section.

This confirms our expectation that the base model configuration may work better than a naive model for this dataset

>0.987 >0.986 >0.989 >0.987 >0.986 >0.988 >0.989 >0.989 >0.983 >0.988 Mean Accuracy: 0.987 (0.002)

>0.987

>0.986

>0.989

>0.987

>0.986

>0.988

>0.989

>0.983

>0.988

Mean Accuracy: 0.987 (0.002)

Next, let’s look at how we might fit a final model and use it to make predictions.

Final Model and Make Predictions

Once we choose a model configuration, we can train a final model on all available data and use it to make predictions on new data.

In this case, we will use the model with dropout and a small batch size as our final model.

We can prepare the data and fit the model as before, although on the entire dataset instead of a training subset of the dataset.

… # split into input and output columns X, y = df.values[:, :-1], df.values[:, -1] # ensure all data are floating point values X = X.astype(‘float32′) # encode strings to integer le = LabelEncoder() y = le.fit_transform(y) # determine the number of input features n_features = X.shape[1] # define model model = Sequential() model.add(Dense(50, activation=’relu’, kernel_initializer=»he_normal», input_shape=(n_features,))) model.add(Dense(1, activation=’sigmoid’)) # compile the model model.compile(optimizer=»adam», loss=»binary_crossentropy»)

...

# split into input and output columns

X, y = df.values[[:, :–1], df.values[[:, –1]

# ensure all data are floating point values

X = X.astype(‘float32’)

# encode strings to integer

le = LabelEncoder()

y = le.fit_transform(y)

# determine the number of input features

n_features = X.shape[[1]

# define model

model = Sequential()

model.add(Dense(50, activation=‘relu’, kernel_initializer=‘he_normal’, input_shape=(n_features,)))

model.add(Dense(1, activation=‘sigmoid’))

# compile the model

model.compile(optimizer=‘adam’, loss=‘binary_crossentropy’)

We can then use this model to make predictions on new data.

First, we can define a row of new data.

… # define a row of new data row = [0.23001961,5.0725783,-0.27606055,0.83244412,-0.37786573,0.4803223]<div id="ezoic-pub-ad-placeholder-748" data-inserter-version="2"></div>

...

# define a row of new data

row = [[0.23001961,5.0725783,–0.27606055,0.83244412,–0.37786573,0.4803223]

Note: I took this row from the first row of the dataset and the expected label is a ‘-1’.

We can then make a prediction.

<div id="ezoic-pub-ad-placeholder-749" data-inserter-version="2"></div> … # make prediction yhat = model.predict_classes([row])

...

# make prediction

yhat = model.predict_classes([[row])

Then invert the transform on the prediction, so we can use or interpret the result in the correct label (which is just an integer for this dataset).

<div id="ezoic-pub-ad-placeholder-750" data-inserter-version="2"></div> … # invert transform to get label for class yhat = le.inverse_transform(yhat)

...

# invert transform to get label for class

yhat = le.inverse_transform(yhat)

And in this case, we will simply report the prediction.

<div id="ezoic-pub-ad-placeholder-751" data-inserter-version="2"></div> … # report prediction print(‘Predicted: %s’ % (yhat[0]))

...

# report prediction

imprimir(‘Predicted: %s’ % (yhat[[0]))

Tying this all together, the complete example of fitting a final model for the mammography dataset and using it to make a prediction on new data is listed below.

<div id="ezoic-pub-ad-placeholder-752" data-inserter-version="2"></div> # fit a final model and make predictions on new data for the mammography dataset from pandas import read_csv from sklearn.preprocessing import LabelEncoder from sklearn.metrics import accuracy_score from tensorflow.keras import Sequential from tensorflow.keras.layers import Dense from tensorflow.keras.layers import Dropout # load the dataset path=»https://raw.githubusercontent.com/jbrownlee/Datasets/master/mammography.csv» df = read_csv(path, header=None) # split into input and output columns X, y = df.values[:, :-1], df.values[:, -1] # ensure all data are floating point values X = X.astype(‘float32′) # encode strings to integer le = LabelEncoder() y = le.fit_transform(y) # determine the number of input features n_features = X.shape[1] # define model model = Sequential() model.add(Dense(50, activation=’relu’, kernel_initializer=»he_normal», input_shape=(n_features,))) model.add(Dense(1, activation=’sigmoid’)) # compile the model model.compile(optimizer=»adam», loss=»binary_crossentropy») # fit the model model.fit(X, y, epochs=300, batch_size=32, verbose=0) # define a row of new data row = [0.23001961,5.0725783,-0.27606055,0.83244412,-0.37786573,0.4803223] # make prediction yhat = model.predict_classes([row]) # invert transform to get label for class yhat = le.inverse_transform(yhat) # report prediction print(‘Predicted: %s’ % (yhat[0]))

dieciséis

# fit a final model and make predictions on new data for the mammography dataset

from pandas import read_csv

from sklearn.preprocessing import LabelEncoder

from sklearn.metrics import accuracy_score

from tensorflow.keras import Sequential

from tensorflow.keras.layers import Dense

from tensorflow.keras.layers import Dropout

# load the dataset

path = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/mammography.csv’

df = read_csv(path, header=None)

# split into input and output columns

X, y = df.values[[:, :–1], df.values[[:, –1]

# ensure all data are floating point values

X = X.astype(‘float32’)

# encode strings to integer

le = LabelEncoder()

y = le.fit_transform(y)

# determine the number of input features

n_features = X.shape[[1]

# define model

model = Sequential()

model.add(Dense(50, activation=‘relu’, kernel_initializer=‘he_normal’, input_shape=(n_features,)))

model.add(Dense(1, activation=‘sigmoid’))

# compile the model

model.compile(optimizer=‘adam’, loss=‘binary_crossentropy’)

# fit the model

model.fit(X, y, epochs=300, batch_size=32, verbose=0)

# define a row of new data

row = [[0.23001961,5.0725783,–0.27606055,0.83244412,–0.37786573,0.4803223]

# make prediction

yhat = model.predict_classes([[row])

# invert transform to get label for class

yhat = le.inverse_transform(yhat)

# report prediction

imprimir(‘Predicted: %s’ % (yhat[[0]))

Running the example fits the model on the entire dataset and makes a prediction for a single row of new data.

In this case, we can see that the model predicted a “-1” label for the input row.

Summary

In this tutorial, you discovered how to develop a Multilayer Perceptron neural network model for the Wood’s Mammography classification dataset.

Specifically, you learned:

How to load and summarize the Wood’s Mammography dataset and use the results to suggest data preparations and model configurations to use.
How to explore the learning dynamics of simple MLP models on the dataset.

How to develop robust estimates of model performance, tune model performance and make predictions on new data.

Do you have any questions?
Ask your questions in the comments below and I will do my best to answer.

Desarrollar una red neuronal para el conjunto de datos de mamografía de Woods

Descripción general del tutorial

Conjunto de datos de mamografía de Woods

Dinámica de aprendizaje de redes neuronales

Evaluación robusta del modelo

Final Model and Make Predictions

Further Reading

Tutorials

Summary

Develop Deep Learning Projects with Python!

What If You Could Develop A Network in Minutes

Finally Bring Deep Learning To
Your Own Projects

Descripción general del tutorial

Conjunto de datos de mamografía de Woods

Dinámica de aprendizaje de redes neuronales

Evaluación robusta del modelo

Final Model and Make Predictions

Further Reading

Tutorials

Summary

Develop Deep Learning Projects with Python!

What If You Could Develop A Network in Minutes

Finally Bring Deep Learning To Your Own Projects

Finally Bring Deep Learning To
Your Own Projects