Agregar banderas binarias para los valores perdidos para el aprendizaje de la máquina

Los valores perdidos pueden causar problemas al modelar la clasificación y problemas de predicción de regresión con los algoritmos de aprendizaje de la máquina.

Un enfoque común consiste en sustituir los valores que faltan por una estadística calculada, como la media de la columna. Esto permite modelar el conjunto de datos según lo normal, pero no da ninguna indicación al modelo de que la fila original contenía valores perdidos.

Un enfoque para abordar esta cuestión consiste en incluir características adicionales de entrada de indicadores binarios que indiquen si una fila o una columna contiene un valor que falta y que se ha imputado. Esta información adicional puede o no ser útil al modelo para predecir el valor objetivo.

En este tutorial, descubrirá cómo añadir banderas binarias para los valores perdidos para el modelaje.

Después de completar este tutorial, lo sabrás:

Cómo cargar y evaluar modelos con imputación estadística en un conjunto de datos de clasificación con valores perdidos.

Cómo añadir una bandera que indique si una fila tiene un valor faltante más y evaluar los modelos con esta nueva característica.
Cómo añadir una bandera para cada variable de entrada que tiene valores perdidos y evaluar modelos con estas nuevas características.

Descubre la limpieza de datos, la selección de características, la transformación de datos, la reducción de la dimensionalidad y mucho más en mi nuevo libro, con 30 tutoriales paso a paso y el código fuente completo en Python.

Empecemos.

Agregar banderas binarias para los valores perdidos para el aprendizaje de la máquina

Agregar banderas binarias para los valores perdidos para el aprendizaje de la máquina
Foto de Keith O Connell, algunos derechos reservados.

Resumen del Tutorial

Este tutorial está dividido en tres partes; son:

Imputar el conjunto de datos del cólico del caballo
Modelo con una bandera binaria para los valores perdidos

Modelo con indicadores de todos los valores perdidos

Imputar el conjunto de datos del cólico del caballo

El conjunto de datos del cólico de los caballos describe las características médicas de los caballos con cólico y si vivieron o murieron.

Hay 300 filas y 26 variables de entrada con una variable de salida. Es una tarea de predicción de clasificación binaria que implica predecir 1 si el caballo vivió y 2 si el caballo murió.

Hay muchos campos que podríamos seleccionar para predecir en este conjunto de datos. En este caso, predeciremos si el problema fue quirúrgico o no (índice de la columna 23), convirtiéndolo en un problema de clasificación binaria.

El conjunto de datos tiene numerosos valores perdidos para muchas de las columnas donde cada valor perdido se marca con un carácter de interrogación («?»).

A continuación se presenta un ejemplo de filas del conjunto de datos con valores perdidos marcados.

2,1,530101,38.50,66,28,3,3,?,2,5,4,4,?,?,?,3,5,45.00,8.40,?,?,2,2,11300,00000,00000,2 1,1,534817,39.2,88,20,?,?,4,1,3,4,2,?,?,?,4,2,50,85,2,2,3,2,02208,00000,00000,2 2,1,530334,38.30,40,24,1,1,3,1,3,3,1,?,?,?,1,1,33.00,6.70,?,?,1,2,00000,00000,00000,1 1,9,5290409,39.10,164,84,4,1,6,2,2,4,4,1,2,5.00,3,?,48.00,7.20,3,5.30,2,1,02208,00000,00000,1 …

2,1,530101,38.50,66,28,3,3,?,2,5,4,4,?,?,?,3,5,45.00,8.40,?,?,2,2,11300,00000,00000,2

1,1,534817,39.2,88,20,?,?,4,1,3,4,2,?,?,?,4,2,50,85,2,2,3,2,02208,00000,00000,2

2,1,530334,38.30,40,24,1,1,3,1,3,3,1,?,?,?,1,1,33.00,6.70,?,?,1,2,00000,00000,00000,1

1,9,5290409,39.10,164,84,4,1,6,2,2,4,4,1,2,5.00,3,?,48.00,7.20,3,5.30,2,1,02208,00000,00000,1

…

Puedes aprender más sobre el conjunto de datos aquí:

No es necesario descargar el conjunto de datos ya que lo descargaremos automáticamente en los ejemplos trabajados.

Marcar los valores perdidos con un valor de NaN (no un número) en un conjunto de datos cargado usando Python es una buena práctica.

Podemos cargar el conjunto de datos usando la función read_csv() Pandas y especificar el «na_valores«para cargar valores de ‘?’ como faltantes, marcados con un valor NaN.

El siguiente ejemplo descarga el conjunto de datos, marca los valores de «?» como NaN (desaparecido) y resume la forma del conjunto de datos.

# Resumir el conjunto de datos del cólico de los caballos de la importación de pandas read_csv # Cargar conjunto de datos url=»https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv» dataframe = read_csv(url, header=None, na_values=»?») data = dataframe.values # Dividido en elementos de entrada y salida ix = [i for i in range(data.shape[1]) si i != 23]X, y = datos[:, ix]…datos…[:, 23] impresión (forma X, forma Y)

# Resumir el conjunto de datos del cólico de los caballos

de pandas importación lea_csv

# Cargar conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv’

dataframe = read_csv(url, encabezado=Ninguno, na_valores=‘?’)

datos = dataframe.valores

# Dividido en elementos de entrada y salida

ix = [[i para i en rango(datos.forma[[1]) si i != 23]

X, y = datos[[:, ix], datos[[:, 23]

imprimir(X.forma, y.forma)

Ejecutando el ejemplo se descarga el conjunto de datos y se informa el número de filas y columnas, que coinciden con nuestras expectativas.

A continuación, podemos evaluar un modelo en este conjunto de datos.

Podemos utilizar la clase SimpleImputer para realizar la imputación estadística y sustituir los valores que faltan por la media de cada columna. Podemos entonces ajustar un modelo forestal aleatorio en el conjunto de datos.

Para más información sobre cómo usar la clase de SimpleImputador, ver el tutorial:

Para lograrlo, definiremos una tubería que primero realiza la imputación, luego se ajusta al modelo y evalúa esta tubería de modelado utilizando la validación cruzada estratificada k-pliegue repetido con tres repeticiones y 10 pliegues.

El ejemplo completo figura a continuación.

# Evaluar la imputación media y el bosque aleatorio para el conjunto de datos del cólico del caballo # de la importación numérica significa de numpy import std de la importación de pandas read_csv de sklearn.ensemble import RandomForestClassifier de sklearn.imputar importación SimpleImputer de sklearn.model_selection import cross_val_score de sklearn.model_selection import RepeatedStratifiedKFold de sklearn.pipeline importación Pipeline # Cargar conjunto de datos url=»https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv» dataframe = read_csv(url, header=None, na_values=»?») # Dividido en elementos de entrada y salida data = dataframe.values ix = [i for i in range(data.shape[1]) si i != 23]X, y = datos[:, ix]…datos…[:, 23] # Definir la tubería de modelado modelo = RandomForestClassifier() imputador = SimpleImputador() Pipeline = Pipeline(pasos=[(‘i’, imputer), (‘m’, model)]) # Definir la evaluación del modelo cv = RepetidoEstratificadoKFold(n_splits=10, n_repeticiones=3, estado_aleatorio=1) # Evaluar el modelo puntuación = cross_val_score(pipeline, X, y, puntuación=’exactitud’, cv=cv, n_jobs=-1) print(‘Precisión media: %.3f (%.3f)’ % (media(puntuaciones), std(puntuaciones))

# Evaluar la imputación media y el bosque aleatorio para el conjunto de datos del cólico del caballo #

de numpy importación significa

de numpy importación std

de pandas importación read_csv

de sklearn.conjunto importación RandomForestClassifier

de sklearn.imputar importación SimpleImputer

de sklearn.model_selection importación puntaje_valor_cruzado

de sklearn.model_selection importación RepeatedStratifiedKFold

de sklearn.tubería importación Oleoducto

# Cargar conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv’

dataframe = read_csv(url, encabezado=Ninguno, na_valores=‘?’)

# Dividido en elementos de entrada y salida

datos = dataframe.valores

ix = [[i para i en rango(datos.forma[[1]) si i != 23]

X, y = datos[[:, ix], datos[[:, 23]

# Definir la tubería de modelado

modelo = RandomForestClassifier()

imputador = SimpleImputer()

tubería = Oleoducto(pasos=[[(‘i’, imputador), (‘m’, modelo)])

# Definir la evaluación del modelo

cv = RepeatedStratifiedKFold(n_splits=10, n_repeticiones=3, estado_aleatorio=1)

# Evaluar el modelo

resultados = puntaje_valor_cruzado(tubería, X, y, puntuación=«exactitud, cv=cv, n_jobs=–1)

imprimir(«Precisión media: %.3f (%.3f) % (significa(resultados), std(resultados)))

Al ejecutar el ejemplo se evalúa el bosque aleatorio con la imputación estadística media en el conjunto de datos del cólico del caballo.

Sus resultados específicos pueden variar dada la naturaleza estocástica del algoritmo de aprendizaje, la naturaleza estocástica del procedimiento de evaluación y las diferencias de precisión entre las máquinas. Intenta ejecutar el ejemplo unas cuantas veces.

En este caso, el oleoducto alcanzó una precisión de clasificación estimada de alrededor del 86,2%.

Precisión media: 0,862 (0,056)

Precisión media: 0,862 (0,056)

A continuación, veamos si podemos mejorar el rendimiento del modelo proporcionando más información sobre los valores perdidos.

Modelo con una bandera binaria para los valores perdidos

En la sección anterior, sustituimos los valores que faltaban por una estadística calculada.

El modelo no sabe que los valores que faltan fueron reemplazados.

Es posible que el conocimiento de si una fila contiene un valor faltante o no sea útil para el modelo al hacer una predicción.

Un enfoque para exponer el modelo a este conocimiento es proporcionar una columna adicional que es una bandera binaria que indica si a la fila le faltaba un valor o no.

0: La fila no contiene un valor que falte.
1: La fila contiene un valor faltante (que fue/ será imputado).

Esto se puede lograr directamente en el conjunto de datos cargados. Primero, podemos sumar los valores de cada fila para crear una nueva columna donde si la fila contiene al menos un NaN, entonces la suma será un NaN.

Podemos marcar todos los valores de la nueva columna como 1 si contienen un NaN, o 0 en caso contrario.

Por último, podemos añadir esta columna al conjunto de datos cargados.

A continuación se presenta el ejemplo completo de la adición de una bandera binaria para indicar uno o más valores que faltan en cada fila.

# Agregar una bandera binaria que indica si una fila contiene un valor faltante de numpy importan isan de numpy import hstack de la importación de pandas read_csv # Cargar conjunto de datos url=»https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv» dataframe = read_csv(url, header=None, na_values=»?») # Dividido en elementos de entrada y salida data = dataframe.values ix = [i for i in range(data.shape[1]) si i != 23]X, y = datos[:, ix]…datos…[:, 23] impresión(X.shape) # Suma cada fila donde las filas con un nan se sumarán a nan a = X.sum(axis=1) # Marcar todos los nan como 1 a[isnan(a)] = 1 # Marcar todos los no-nan como 0 a[~isnan(a)] = 0 a = a.reshape((len(a), 1)) # Agregar al conjunto de datos como otra columna X = hstack((X, a)) impresión(X.shape)

# Agregar una bandera binaria que indica si una fila contiene un valor faltante

de numpy importación isan

de numpy importación hstack

de pandas importación lea_csv

# Cargar conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv’

dataframe = read_csv(url, encabezado=Ninguno, na_valores=‘?’)

# Dividido en elementos de entrada y salida

datos = dataframe.valores

ix = [[i para i en rango(datos.forma[[1]) si i != 23]

X, y = datos[[:, ix], datos[[:, 23]

imprimir(X.forma)

# Suma cada fila donde las filas con un nan se sumarán a nan

a = X.suma(eje=1)

# Marcar todos los nan como 1

a[[isan(a)] = 1

# Marcar todos los no-nan como 0

a[[~isan(a)] = 0

a = a.remodelar((len(a), 1))

# Agregar al conjunto de datos como otra columna

X = hstack((X, a))

imprimir(X.forma)

Ejecutando el ejemplo primero descarga el conjunto de datos e informa el número de filas y columnas, como se esperaba.

Luego se crea la nueva variable binaria que indica si una fila contiene un valor faltante y se agrega al final de las variables de entrada. A continuación se informa de la forma de los datos de entrada, confirmando la adición de la característica, de 27 a 28 columnas.

Podemos entonces evaluar el modelo como lo hicimos en la sección anterior con la bandera binaria adicional y ver si impacta en el rendimiento del modelo.

El ejemplo completo figura a continuación.

# Evaluar el rendimiento del modelo con un indicador binario para los valores perdidos e imputados perdidos de numpy importan isan de numpy import hstack de la importación numérica significa de numpy import std de la importación de pandas read_csv de sklearn.ensemble import RandomForestClassifier de sklearn.imputar importación SimpleImputer de sklearn.model_selection import cross_val_score de sklearn.model_selection import RepeatedStratifiedKFold de sklearn.pipeline importación Pipeline # Cargar conjunto de datos url=»https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv» dataframe = read_csv(url, header=None, na_values=»?») # Dividido en elementos de entrada y salida data = dataframe.values ix = [i for i in range(data.shape[1]) si i != 23]X, y = datos[:, ix]…datos…[:, 23] # Suma cada fila donde las filas con un nan se sumarán a nan a = X.sum(axis=1) # Marcar todos los nan como 1 a[isnan(a)] = 1 # Marcar todos los no-nan como 0 a[~isnan(a)] = 0 a = a.reshape((len(a), 1)) # Agregar al conjunto de datos como otra columna X = hstack((X, a)) # Definir la tubería de modelado modelo = RandomForestClassifier() imputador = SimpleImputador() Pipeline = Pipeline(pasos=[(‘i’, imputer), (‘m’, model)]) # Definir la evaluación del modelo cv = RepetidoEstratificadoKFold(n_splits=10, n_repeticiones=3, estado_aleatorio=1) # Evaluar el modelo puntuación = cross_val_score(pipeline, X, y, puntuación=’exactitud’, cv=cv, n_jobs=-1) print(‘Precisión media: %.3f (%.3f)’ % (media(puntuaciones), std(puntuaciones))

# Evaluar el rendimiento del modelo con un indicador binario para los valores perdidos e imputados perdidos

de numpy importación isan

de numpy importación hstack

de numpy importación significa

de numpy importación std

de pandas importación read_csv

de sklearn.conjunto importación RandomForestClassifier

de sklearn.imputar importación SimpleImputer

de sklearn.model_selection importación puntaje_valor_cruzado

de sklearn.model_selection importación RepeatedStratifiedKFold

de sklearn.tubería importación Oleoducto

# Cargar conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv’

dataframe = read_csv(url, encabezado=Ninguno, na_valores=‘?’)

# Dividido en elementos de entrada y salida

datos = dataframe.valores

ix = [[i para i en rango(datos.forma[[1]) si i != 23]

X, y = datos[[:, ix], datos[[:, 23]

# Suma cada fila donde las filas con un nan se sumarán a nan

a = X.suma(eje=1)

# Marcar todos los nan como 1

a[[isan(a)] = 1

# Marcar todos los no-nan como 0

a[[~isan(a)] = 0

a = a.remodelar((len(a), 1))

# Agregar al conjunto de datos como otra columna

X = hstack((X, a))

# Definir la tubería de modelado

modelo = RandomForestClassifier()

imputador = SimpleImputer()

tubería = Oleoducto(pasos=[[(‘i’, imputador), (‘m’, modelo)])

# Definir la evaluación del modelo

cv = RepeatedStratifiedKFold(n_splits=10, n_repeticiones=3, estado_aleatorio=1)

# Evaluar el modelo

resultados = puntaje_valor_cruzado(tubería, X, y, puntuación=«exactitud, cv=cv, n_jobs=–1)

imprimir(«Precisión media: %.3f (%.3f) % (significa(resultados), std(resultados)))

La ejecución del ejemplo informa de la precisión de la clasificación de la media y la desviación estándar en el conjunto de datos del cólico de caballo con la característica adicional y la imputación.

En este caso, vemos un modesto aumento en el rendimiento de 86,2 por ciento a 86,3 por ciento. La diferencia es pequeña y puede no ser estadísticamente significativa.

Precisión media: 0,863 (0,055)

Precisión media: 0,863 (0,055)

La mayoría de las filas de este conjunto de datos tienen un valor faltante, y este enfoque podría ser más beneficioso en los conjuntos de datos con menos valores faltantes.

A continuación, veamos si podemos proporcionar más información sobre los valores que faltan al modelo.

Modelo con indicadores de todos los valores perdidos

En la sección anterior, añadimos una columna adicional para indicar si una fila contiene un valor que falta o no.

Un paso más allá es indicar si cada valor de entrada faltaba y se imputó o no. Esto añade efectivamente una columna adicional para cada variable de entrada que contiene valores faltantes y puede ofrecer un beneficio al modelo.

Esto puede lograrse estableciendo el «add_indicator» argumento para Verdadero cuando se define la instancia de SimpleImputador.

… # Imputar y marcar los valores perdidos X = SimpleImputer(add_indicator=True).fit_transform(X)

...

# Imputar y marcar los valores perdidos

X = SimpleImputer(add_indicator=Verdadero).fit_transform(X)

Podemos demostrarlo con un ejemplo práctico.

El siguiente ejemplo carga el conjunto de datos del cólico de caballo como antes, luego imputa los valores faltantes en todo el conjunto de datos y agrega variables indicadoras para cada variable de entrada que tiene valores faltantes

# Imputar y añadir indicadores para las columnas con valores perdidos de la importación de pandas read_csv de sklearn.imputar importación SimpleImputer # Cargar conjunto de datos url=»https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv» dataframe = read_csv(url, header=None, na_values=»?») data = dataframe.values # Dividido en elementos de entrada y salida ix = [i for i in range(data.shape[1]) si i != 23]X, y = datos[:, ix]…datos…[:, 23] impresión(X.shape) # Imputar y marcar los valores perdidos X = SimpleImputer(strategy=’mean’, add_indicator=True).fit_transform(X) impresión(X.shape)

# Imputar y añadir indicadores para las columnas con valores perdidos

de pandas importación read_csv

de sklearn.imputar importación SimpleImputer

# Cargar conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv’

dataframe = read_csv(url, encabezado=Ninguno, na_valores=‘?’)

datos = dataframe.valores

# Dividido en elementos de entrada y salida

ix = [[i para i en rango(datos.forma[[1]) si i != 23]

X, y = datos[[:, ix], datos[[:, 23]

imprimir(X.forma)

# Imputar y marcar los valores perdidos

X = SimpleImputer(estrategia=«malo»…, add_indicator=Verdadero).fit_transform(X)

imprimir(X.forma)

Al ejecutar el ejemplo primero se descarga y resume la forma del conjunto de datos como se esperaba, luego aplica la imputación y añade las columnas binarias (valores 1 y 0) indicando si cada fila contiene un valor que falta para una determinada variable de entrada.

Podemos ver que el número de variables de entrada ha aumentado de 27 a 48, lo que indica la adición de 21 variables de entrada binarias y, a su vez, que 21 de las 27 variables de entrada deben contener al menos un valor que falta.

A continuación, podemos evaluar el modelo con esta información adicional.

El ejemplo completo que se presenta a continuación lo demuestra.

# Evaluar la imputación con indicadores añadidos características en el conjunto de datos del cólico de caballo de la importación numérica significa de numpy import std de la importación de pandas read_csv de sklearn.ensemble import RandomForestClassifier de sklearn.imputar importación SimpleImputer de sklearn.model_selection import cross_val_score de sklearn.model_selection import RepeatedStratifiedKFold de sklearn.pipeline importación Pipeline # Cargar conjunto de datos url=»https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv» dataframe = read_csv(url, header=None, na_values=»?») # Dividido en elementos de entrada y salida data = dataframe.values ix = [i for i in range(data.shape[1]) si i != 23]X, y = datos[:, ix]…datos…[:, 23] # Definir la tubería de modelado modelo = RandomForestClassifier() imputador = SimpleImputador(add_indicator=True) Pipeline = Pipeline(pasos=[(‘i’, imputer), (‘m’, model)]) # Definir la evaluación del modelo cv = RepetidoEstratificadoKFold(n_splits=10, n_repeticiones=3, estado_aleatorio=1) # Evaluar el modelo puntuación = cross_val_score(pipeline, X, y, puntuación=’exactitud’, cv=cv, n_jobs=-1) print(‘Precisión media: %.3f (%.3f)’ % (media(puntuaciones), std(puntuaciones))

# Evaluar la imputación con indicadores añadidos características en el conjunto de datos del cólico de caballo

de numpy importación significa

de numpy importación std

de pandas importación read_csv

de sklearn.conjunto importación RandomForestClassifier

de sklearn.imputar importación SimpleImputer

de sklearn.model_selection importación puntaje_valor_cruzado

de sklearn.model_selection importación RepeatedStratifiedKFold

de sklearn.tubería importación Oleoducto

# Cargar conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/horse-colic.csv’

dataframe = read_csv(url, encabezado=Ninguno, na_valores=‘?’)

# Dividido en elementos de entrada y salida

datos = dataframe.valores

ix = [[i para i en rango(datos.forma[[1]) si i != 23]

X, y = datos[[:, ix], datos[[:, 23]

# Definir la tubería de modelado

modelo = RandomForestClassifier()

imputador = SimpleImputer(add_indicator=Verdadero)

tubería = Oleoducto(pasos=[[(‘i’, imputador), (‘m’, modelo)])

# Definir la evaluación del modelo

cv = RepeatedStratifiedKFold(n_splits=10, n_repeticiones=3, estado_aleatorio=1)

# Evaluar el modelo

resultados = puntaje_valor_cruzado(tubería, X, y, puntuación=«exactitud, cv=cv, n_jobs=–1)

imprimir(«Precisión media: %.3f (%.3f) % (significa(resultados), std(resultados)))

El ejemplo informa de la precisión de la clasificación de la media y la desviación estándar en el conjunto de datos del cólico de caballo con las características de los indicadores adicionales y la imputación.

En este caso, vemos un buen aumento en el rendimiento desde el 86,3 por ciento en la sección anterior hasta el 86,7 por ciento.

Esto puede proporcionar una fuerte evidencia de que añadir una bandera por cada columna que fue introducida es una mejor estrategia en este conjunto de datos y modelo elegido.

Precisión media: 0,867 (0,055)

Precisión media: 0,867 (0,055)