Saltar al contenido

Cómo desarrollar un conjunto subespacial aleatorio con Python

31 de octubre de 2020

Conjunto subespacial aleatorio es un algoritmo de aprendizaje automático que combina las predicciones de múltiples árboles de decisión entrenados en diferentes subconjuntos de columnas del conjunto de datos de entrenamiento.

Variar al azar las columnas utilizadas para entrenar a cada miembro contribuyente del conjunto tiene el efecto de introducir diversidad en el conjunto y, a su vez, puede elevar la actuación por encima del uso de un único árbol de decisiones.

Está relacionado con otros conjuntos de árboles de decisión como la agregación de bootstrap (embolsado) que crea árboles utilizando diferentes muestras de filas del conjunto de datos de formación, y el bosque aleatorio que combina ideas de embolsado y el conjunto subespacial aleatorio.

Aunque a menudo se utilizan árboles de decisión, el método subespacial aleatorio general puede utilizarse con cualquier modelo de aprendizaje por máquina cuyo rendimiento varíe significativamente con la elección de las características de entrada.

En este tutorial, descubrirá cómo desarrollar conjuntos subespaciales aleatorios para la clasificación y la regresión.

Después de completar este tutorial, lo sabrás:

  • Se crean conjuntos subespaciales aleatorios a partir de árboles de decisión que se ajustan a diferentes muestras de características (columnas) en el conjunto de datos de entrenamiento.
  • Cómo usar el conjunto subespacial aleatorio para la clasificación y regresión con scikit-learn.
  • Cómo explorar el efecto de los hiperparámetros de los modelos subespaciales aleatorios en el rendimiento de los modelos.

Empecemos.

Cómo desarrollar un conjunto subespacial aleatorio con Python

Cómo desarrollar un conjunto subespacial aleatorio con Python
Foto de Marsel Minga, algunos derechos reservados.

Resumen del Tutorial

Este tutorial está dividido en tres partes; son:

  1. Conjunto subespacial aleatorio
  2. Ensamble subespacial aleatorio a través de embolsado
    1. Conjunto subespacial aleatorio para la clasificación
    2. Conjunto subespacial aleatorio para la regresión
  3. Conjunto subespacial aleatorio de hiperparámetros
    1. Explorar el número de árboles
    2. Explorar el número de características
    3. Explorar el algoritmo alternativo

Conjunto subespacial aleatorio

Un problema de modelado predictivo consiste en una o más variables de entrada y una variable objetivo.

Una variable es una columna en los datos y también se suele denominar característica. Podemos considerar que todos los rasgos de entrada juntos definen un espacio vectorial de n dimensiones, donde n es el número de rasgos de entrada y cada ejemplo (fila de datos de entrada) es un punto en el espacio del rasgo.

Se trata de una conceptualización común en el aprendizaje de las máquinas y, a medida que los espacios de las características de entrada se hacen más grandes, aumenta la distancia entre los puntos del espacio, lo que se conoce generalmente como la maldición de la dimensionalidad.

Por lo tanto, un subconjunto de características de entrada puede considerarse como un subconjunto del espacio de características de entrada, o un subespacio.

La selección de características es una forma de definir un subespacio del espacio de características de entrada. Por ejemplo, la selección de rasgos se refiere a un intento de reducir el número de dimensiones del espacio del rasgo de entrada seleccionando un subconjunto de rasgos para mantener o un subconjunto de rasgos para eliminar, a menudo basado en su relación con la variable objetivo.

Alternativamente, podemos seleccionar subconjuntos aleatorios de características de entrada para definir subespacios aleatorios. Esto puede utilizarse como base para un algoritmo de aprendizaje en conjunto, en el que se puede ajustar un modelo en cada subespacio aleatorio de características. Esto se denomina conjunto de subespacios aleatorios o método subespacial aleatorio.

Los datos de entrenamiento suelen describirse mediante un conjunto de características. Diferentes subconjuntos de características, o llamados subespacios, proporcionan diferentes puntos de vista sobre los datos. Por lo tanto, los alumnos individuales capacitados desde diferentes subespacios suelen ser diversos.

– Página 116, Métodos de ensamblaje, 2012.

Fue propuesto por Tin Kam Ho en el documento de 1998 titulado «The Random Subspace Method For Constructing Decision Forests» (El método del subespacio aleatorio para la construcción de bosques de decisión), en el que se ajusta un árbol de decisión en cada subespacio aleatorio.

En términos más generales, se trata de una técnica de diversidad para el aprendizaje en conjunto que pertenece a una clase de métodos que cambian el conjunto de datos de capacitación para cada modelo en el intento de reducir la correlación entre las predicciones de los modelos en el conjunto.

El procedimiento es tan simple como seleccionar un subconjunto aleatorio de características de entrada (columnas) para cada modelo en el conjunto y ajustar el modelo en el modelo en todo el conjunto de datos de entrenamiento. Se puede aumentar con cambios adicionales, como el uso de un bootstrap o una muestra aleatoria de las filas en el conjunto de datos de entrenamiento.

El clasificador consiste en múltiples árboles construidos sistemáticamente mediante la selección seudoaleatoria de subconjuntos de componentes del vector del rasgo, es decir, árboles construidos en subespacios elegidos al azar.

– El método subespacial aleatorio para la construcción de bosques de decisión, 1998.

Como tal, el conjunto subespacial aleatorio está relacionado con la agregación (empaquetamiento) de bootstrap que introduce la diversidad al entrenar cada modelo, a menudo un árbol de decisiones, en una muestra aleatoria diferente del conjunto de datos de entrenamiento, con reemplazo (por ejemplo, el método de muestreo de bootstrap). El conjunto aleatorio de bosques también puede considerarse un híbrido de los métodos de embolsado y de conjunto aleatorio de subconjuntos.

Los algoritmos que utilizan diferentes subconjuntos de características se denominan comúnmente métodos subespaciales aleatorios…

– Página 21, Ensemble Machine Learning, 2012.

El método subespacial aleatorio puede utilizarse con cualquier algoritmo de aprendizaje de máquina, aunque es muy adecuado para modelos que son sensibles a grandes cambios en las características de entrada, como los árboles de decisión y los vecinos más cercanos.

Es apropiado para los conjuntos de datos que tienen un gran número de características de entrada, ya que puede dar lugar a un buen rendimiento con una buena eficiencia. Si el conjunto de datos contiene muchas características de entrada irrelevantes, puede ser mejor utilizar la selección de características como técnica de preparación de datos, ya que la prevalencia de características irrelevantes en los subespacios puede perjudicar el rendimiento del conjunto.

Para datos con muchas características redundantes, entrenar a un alumno en un subespacio no sólo será efectivo sino también eficiente.

– Página 116, Métodos de ensamblaje, 2012.

Ahora que estamos familiarizados con el conjunto subespacial aleatorio, exploremos cómo podemos implementar el enfoque.

Ensamble subespacial aleatorio a través de embolsado

Podemos implementar el conjunto subespacial aleatorio usando el embolsamiento en el scikit-learn.

El embolsado se realiza a través de las clases BaggingRegressor y BaggingClassifier.

Podemos configurar el embolsado para que sea un conjunto subespacial aleatorio, estableciendo el «bootstrap«argumento para»Falso» para desactivar el muestreo de las filas del conjunto de datos de entrenamiento y establecer el número máximo de características a un valor dado a través del «max_features«argumento».

El modelo por defecto para el embolsado es un árbol de decisión, pero puede ser cambiado a cualquier modelo que queramos.

Podemos demostrar usando el embolsado para implementar un conjunto subespacial aleatorio con árboles de decisión para la clasificación y la regresión.

Conjunto subespacial aleatorio para la clasificación

En esta sección, veremos el desarrollo de un conjunto subespacial aleatorio utilizando el embolsado para un problema de clasificación.

Primero, podemos usar la función make_classification() para crear un problema de clasificación binaria sintética con 1.000 ejemplos y 20 características de entrada.

El ejemplo completo figura a continuación.

Recomendado:  La investigación explora estrategias innovadoras de rehabilitación

Ejecutando el ejemplo se crea el conjunto de datos y se resume la forma de los componentes de entrada y salida.

A continuación, podemos configurar un modelo de embolsado para ser un conjunto subespacial aleatorio para árboles de decisión en este conjunto de datos.

Cada modelo se ajustará en un subespacio aleatorio de 10 características de entrada, elegidas arbitrariamente.

Evaluaremos el modelo utilizando la validación cruzada estratificada k-pliegue, con tres repeticiones y 10 pliegues. Informaremos la media y la desviación estándar de la precisión del modelo en todas las repeticiones y pliegues.

La ejecución del ejemplo informa de la precisión de la media y la desviación estándar del modelo.

Nota: Sus resultados pueden variar dada la naturaleza estocástica del algoritmo o el procedimiento de evaluación, o las diferencias en la precisión numérica. Considere ejecutar el ejemplo unas cuantas veces y compare el resultado promedio.

En este caso, podemos ver que el conjunto subespacial aleatorio con hiperparámetros predeterminados logra una precisión de clasificación de alrededor del 85,4 por ciento en este conjunto de datos de prueba.

También podemos usar el modelo de conjunto subespacial aleatorio como modelo final y hacer predicciones para la clasificación.

Primero, el conjunto se ajusta a todos los datos disponibles, luego el predecir() se puede llamar a la función para hacer predicciones sobre nuevos datos.

El siguiente ejemplo lo demuestra en nuestro conjunto de datos de clasificación binaria.

La ejecución del ejemplo se ajusta al modelo de conjunto subespacial aleatorio en todo el conjunto de datos y luego se utiliza para hacer una predicción en una nueva fila de datos, como podríamos hacer al utilizar el modelo en una aplicación.

Ahora que estamos familiarizados con el uso de bolsas para la clasificación, veamos el API para la regresión.

Conjunto subespacial aleatorio para la regresión

En esta sección, veremos el uso de la bolsa para un problema de regresión.

Primero, podemos usar la función make_regression() para crear un problema de regresión sintética con 1.000 ejemplos y 20 características de entrada.

El ejemplo completo figura a continuación.

Ejecutando el ejemplo se crea el conjunto de datos y se resume la forma de los componentes de entrada y salida.

A continuación, podemos evaluar un conjunto subespacial aleatorio a través de la bolsa de este conjunto de datos.

Como antes, debemos configurar el embolsado para utilizar todas las filas del conjunto de datos de entrenamiento y especificar el número de características de entrada a seleccionar al azar.

Como hicimos con la última sección, evaluaremos el modelo usando la validación cruzada repetida k-pliegue, con tres repeticiones y 10 pliegues. Informaremos del error medio absoluto (MAE) del modelo en todas las repeticiones y pliegues. La biblioteca de aprendizaje de ciencias hace que el MAE sea negativo, de modo que se maximiza en lugar de minimizarse. Esto significa que los MAE negativos más grandes son mejores y un modelo perfecto tiene un MAE de 0.

El ejemplo completo figura a continuación.

Recomendado:  Red Hat acumula software para contener IA en plataformas Nvidia

La ejecución del ejemplo informa de la precisión de la media y la desviación estándar del modelo.

Nota: Sus resultados pueden variar dada la naturaleza estocástica del algoritmo o el procedimiento de evaluación, o las diferencias en la precisión numérica. Considere ejecutar el ejemplo unas cuantas veces y compare el resultado promedio.

En este caso, podemos ver que el conjunto de bolsas con hiperparámetros predeterminados alcanza un MAE de alrededor de 114.

También podemos usar el modelo de conjunto subespacial aleatorio como modelo final y hacer predicciones para la regresión.

Primero, el conjunto se ajusta a todos los datos disponibles, luego se puede llamar a la función predict() para hacer predicciones sobre nuevos datos.

El siguiente ejemplo lo demuestra en nuestro conjunto de datos de regresión.

La ejecución del ejemplo se ajusta al modelo de conjunto subespacial aleatorio en todo el conjunto de datos y luego se utiliza para hacer una predicción en una nueva fila de datos, como podríamos hacer al utilizar el modelo en una aplicación.

Ahora que estamos familiarizados con el uso de la API de scikit-learn para evaluar y usar conjuntos subespaciales aleatorios, veamos la configuración del modelo.

Conjunto subespacial aleatorio de hiperparámetros

En esta sección, examinaremos más de cerca algunos de los hiperparámetros que debería considerar para la sintonización del conjunto subespacial aleatorio y su efecto en el rendimiento del modelo.

Explorar el número de árboles

Un importante hiperparámetro para el método subespacial aleatorio es el número de árboles de decisión utilizados en el conjunto. Un mayor número de árboles estabilizará la varianza del modelo, contrarrestando el efecto del número de características seleccionadas por cada árbol que introduce la diversidad.

El número de árboles se puede establecer a través de la «n_estimadores«y por defecto a 10.

El siguiente ejemplo explora el efecto del número de árboles con valores entre 10 y 5.000.

La ejecución del ejemplo primero reporta la precisión media para cada número configurado de árboles de decisión.

Nota: Sus resultados pueden variar dada la naturaleza estocástica del algoritmo o el procedimiento de evaluación, o las diferencias en la precisión numérica. Considere ejecutar el ejemplo unas cuantas veces y compare el resultado promedio.

En este caso, podemos ver que ese rendimiento parece seguir mejorando a medida que el número de miembros del conjunto se incrementa a 5.000.

Se crea un gráfico de caja y bigote para la distribución de las puntuaciones de precisión para cada número configurado de árboles.

Podemos ver la tendencia general de una mayor mejora con el número de árboles de decisión utilizados en el conjunto.

Cuadro del tamaño de un conjunto subespacial aleatorio vs. Precisión de la clasificación

Cuadro del tamaño de un conjunto subespacial aleatorio vs. Precisión de la clasificación

Explorar el número de características

El número de características seleccionadas para cada subespacio aleatorio controla la diversidad del conjunto.

Menos rasgos significan más diversidad, mientras que más rasgos significan menos diversidad. Una mayor diversidad puede requerir más árboles para reducir la variabilidad de las predicciones hechas por el modelo.

Podemos variar la diversidad del conjunto variando el número de características aleatorias seleccionadas mediante el ajuste de la «max_features«argumento».

En el ejemplo siguiente el valor varía de 1 a 20 con un número fijo de árboles en el conjunto.

Ejecutando el ejemplo primero se informa de la precisión media para cada número de características.

Nota: Sus resultados pueden variar dada la naturaleza estocástica del algoritmo o el procedimiento de evaluación, o las diferencias en la precisión numérica. Considere ejecutar el ejemplo unas cuantas veces y compare el resultado promedio.

En este caso, podemos ver que quizás el uso de 8 a 11 características en los subespacios aleatorios podría ser apropiado en este conjunto de datos al utilizar 100 árboles de decisión. Esto podría sugerir que primero se aumente el número de árboles a un valor grande, y luego se ajuste el número de características seleccionadas en cada subconjunto.

Se crea un gráfico de caja y bigote para la distribución de las puntuaciones de precisión para cada número de características de subconjuntos aleatorios.

Podemos ver una tendencia general de aumento de la precisión hasta un punto y una disminución constante del rendimiento después de 11 características.

Cuadro de características de un conjunto subespacial aleatorio vs. precisión de clasificación

Cuadro de características de un conjunto subespacial aleatorio vs. precisión de clasificación

Explorar el algoritmo alternativo

Los árboles de decisión son el algoritmo más común usado en un conjunto subespacial aleatorio.

La razón de esto es que son fáciles de configurar y funcionan bien en la mayoría de los problemas.

Pueden utilizarse otros algoritmos para construir subespacios aleatorios y deben configurarse para que tengan una varianza modestamente alta. Un ejemplo es el algoritmo de los vecinos más cercanos donde el k se puede ajustar a un valor bajo.

El algoritmo utilizado en el conjunto se especifica a través de la «base_estimador«y debe ser establecido en una instancia del algoritmo y la configuración del algoritmo a utilizar.

El siguiente ejemplo demuestra el uso de un KNeighborsClassifier como algoritmo base utilizado en el conjunto subespacial aleatorio a través de la clase «bagging». Aquí, el algoritmo se utiliza con hiperparámetros predeterminados donde k se establece en 5.

El ejemplo completo figura a continuación.

La ejecución del ejemplo informa de la precisión de la media y la desviación estándar del modelo.

Nota: Sus resultados pueden variar dada la naturaleza estocástica del algoritmo o el procedimiento de evaluación, o las diferencias en la precisión numérica. Considere ejecutar el ejemplo unas cuantas veces y compare el resultado promedio.

En este caso, podemos ver que el conjunto subespacial aleatorio con KNN e hiperparámetros por defecto logra una precisión de clasificación de alrededor del 90 por ciento en este conjunto de datos de prueba.

Más lecturas

Esta sección proporciona más recursos sobre el tema si desea profundizar en él.

Documentos

Libros

APIs

Artículos

Resumen

En este tutorial, descubriste cómo desarrollar conjuntos subespaciales aleatorios para la clasificación y la regresión.

Específicamente, aprendiste:

  • Se crean conjuntos subespaciales aleatorios a partir de árboles de decisión que se ajustan a diferentes muestras de características (columnas) en el conjunto de datos de entrenamiento.
  • Cómo usar el conjunto subespacial aleatorio para la clasificación y regresión con scikit-learn.
  • Cómo explorar el efecto de los hiperparámetros de los modelos subespaciales aleatorios en el rendimiento de los modelos.

¿Tiene alguna pregunta?
Haga sus preguntas en los comentarios de abajo y haré lo posible por responder.