Esencia de conjuntos de apilamiento para el aprendizaje automático

Generalización apilada, o apilado, puede ser un conjunto de aprendizaje automático menos popular dado que describe un marco más que un modelo específico.

Quizás la razón por la que ha sido menos popular en el aprendizaje automático convencional es que puede ser complicado entrenar un modelo de apilamiento correctamente, sin sufrir fugas de datos. Esto ha significado que la técnica haya sido utilizada principalmente por expertos altamente calificados en entornos de alto riesgo, como competiciones de aprendizaje automático, y se le haya dado nuevos nombres como conjuntos de mezcla.

Sin embargo, los marcos de aprendizaje automático modernos hacen que el apilamiento sea una rutina para implementar y evaluar para problemas de modelado predictivo de clasificación y regresión. Como tal, podemos revisar los métodos de aprendizaje por conjuntos relacionados con el apilamiento a través de la lente del marco de apilamiento. Esta familia más amplia de técnicas de apilamiento también puede ayudar a ver cómo adaptar la configuración de la técnica en el futuro al explorar nuestros propios proyectos de modelado predictivo.

En este tutorial, descubrirá la esencia del enfoque de generalización apilada para conjuntos de aprendizaje automático.

Después de completar este tutorial, sabrá:

El método de conjunto de apilamiento para el aprendizaje automático utiliza un metamodelo para combinar las predicciones de los miembros contribuyentes.

Cómo destilar los elementos esenciales del método de apilamiento y cómo se relacionan las extensiones populares como la mezcla y el superconjunto.
Cómo diseñar nuevas extensiones de apilamiento seleccionando nuevos procedimientos para los elementos esenciales del método.

Empecemos.

Esencia de conjuntos de apilamiento para el aprendizaje automático
Foto de Thomas, algunos derechos reservados.

Descripción general del tutorial

Este tutorial se divide en cuatro partes; ellos son:

Generalización apilada

Esencia de conjuntos apilables
Familia de conjuntos apilables
1. Conjuntos de votaciones
2. Peso promedio
3. Conjunto de mezcla
4. Conjunto de superaprendizaje

Conjuntos de apilamiento personalizados

Generalización apilada

La generalización apilada, o apilamiento para abreviar, es un algoritmo conjunto de aprendizaje automático.

El apilamiento implica el uso de un modelo de aprendizaje automático para aprender cómo combinar mejor las predicciones de los miembros del conjunto que contribuyen.

En la votación, los miembros del conjunto suelen ser una colección diversa de tipos de modelos, como un árbol de decisiones, Bayes ingenuo y una máquina de vectores de soporte. Las predicciones se hacen promediando las predicciones, como seleccionar la clase con más votos (el modo estadístico) o la mayor probabilidad sumada.

… La votación (no ponderada) solo tiene sentido si los esquemas de aprendizaje funcionan de manera comparable.

– Página 497, Minería de datos: técnicas y herramientas prácticas de aprendizaje automático, 2016.

Una extensión de la votación es sopesar la contribución de cada miembro del conjunto en la predicción, proporcionando una predicción de suma ponderada. Esto permite colocar más peso en los modelos que funcionan mejor en promedio y menos en aquellos que no funcionan tan bien pero que aún tienen alguna habilidad de predicción.

Se debe aprender el peso asignado a cada miembro contribuyente, como el rendimiento de cada modelo en el conjunto de datos de entrenamiento o un conjunto de datos reservado.

El apilamiento generaliza este enfoque y permite utilizar cualquier modelo de aprendizaje automático para aprender cómo combinar mejor las predicciones de los miembros contribuyentes. El modelo que combina las predicciones se denomina metamodelo, mientras que los miembros del conjunto se denominan modelos base.

El problema con la votación es que no está claro en qué clasificador confiar. Stacking intenta aprender qué clasificadores son los confiables, utilizando otro algoritmo de aprendizaje, el metaaprendiz, para descubrir la mejor manera de combinar la salida de los alumnos base.

– Página 497, Minería de datos: técnicas y herramientas prácticas de aprendizaje automático, 2016.

En el lenguaje tomado del documento que introdujo la técnica, los modelos base se denominan estudiantes de nivel 0 y el metamodelo se conoce como modelo de nivel 1.

Naturalmente, el apilado de modelos puede continuar hasta el nivel deseado.

El apilamiento es un procedimiento general en el que se capacita a un alumno para combinar a los alumnos individuales. Aquí, los alumnos individuales se denominan alumnos de primer nivel, mientras que el combinador se denomina alumno de segundo nivel o metaaprendizaje.

– Página 83, Métodos de conjunto, 2012.

Es importante destacar que la forma en que se entrena el metamodelo es diferente a la forma en que se entrenan los modelos base.

La entrada al metamodelo son las predicciones realizadas por los modelos base, no las entradas sin procesar del conjunto de datos. El objetivo es el mismo valor objetivo esperado. Las predicciones realizadas por los modelos base utilizados para entrenar el metamodelo son ejemplos que no se utilizan para entrenar los modelos base, lo que significa que están fuera de muestra.

Por ejemplo, el conjunto de datos se puede dividir en conjuntos de datos de entrenamiento, validación y prueba. Luego, cada modelo base se puede ajustar al conjunto de entrenamiento y hacer predicciones en el conjunto de datos de validación. Las predicciones del conjunto de validación se utilizan para entrenar el metamodelo.

Esto significa que el metamodelo está entrenado para combinar mejor las capacidades de los modelos base cuando están haciendo predicciones fuera de la muestra, p. Ej. ejemplos no vistos durante el entrenamiento.

… Reservamos algunas instancias para formar los datos de entrenamiento para el alumno de nivel 1 y construir clasificadores de nivel 0 a partir de los datos restantes. Una vez que se han construido los clasificadores de nivel 0, se utilizan para clasificar las instancias en el conjunto de reserva, formando los datos de entrenamiento de nivel 1.

– Página 498, Minería de datos: técnicas y herramientas prácticas de aprendizaje automático, 2016.

Una vez que se entrena el metamodelo, los modelos base se pueden volver a entrenar en los conjuntos de datos de validación y entrenamiento combinados. Luego, todo el sistema se puede evaluar en el conjunto de prueba pasando ejemplos primero a través de los modelos base para recopilar predicciones de nivel base, luego pasando esas predicciones a través del metamodelo para obtener predicciones finales. El sistema se puede utilizar de la misma forma al realizar predicciones sobre nuevos datos.

Este enfoque para entrenar, evaluar y usar un modelo de apilamiento se puede generalizar aún más para que funcione con la validación cruzada de k-fold.

Normalmente, los modelos base se preparan utilizando diferentes algoritmos, lo que significa que los conjuntos son una colección heterogénea de tipos de modelos que proporcionan un nivel deseado de diversidad a las predicciones realizadas. Sin embargo, este no tiene que ser el caso, y se pueden usar diferentes configuraciones de los mismos modelos o se puede entrenar el mismo modelo en diferentes conjuntos de datos.

Los alumnos de primer nivel a menudo se generan aplicando diferentes algoritmos de aprendizaje, por lo que los conjuntos apilados suelen ser heterogéneos.

– Página 83, Métodos de conjunto, 2012.

En los problemas de clasificación, el conjunto de apilamiento a menudo funciona mejor cuando los modelos base están configurados para predecir probabilidades en lugar de etiquetas de clase nítidas, ya que la incertidumbre adicional en las predicciones proporciona más contexto para el metamodelo al aprender cómo combinar mejor las predicciones.

… La mayoría de los esquemas de aprendizaje pueden generar probabilidades para cada etiqueta de clase en lugar de hacer una sola predicción categórica. Esto se puede aprovechar para mejorar el rendimiento del apilamiento utilizando las probabilidades para formar los datos de nivel 1.

– Página 498, Minería de datos: técnicas y herramientas prácticas de aprendizaje automático, 2016.

El metamodelo es típicamente un modelo lineal simple, como una regresión lineal para problemas de regresión o un modelo de regresión logística para clasificación. Una vez más, este no tiene por qué ser el caso, y cualquier modelo de aprendizaje automático se puede utilizar como metaaprendizaje.

… Debido a que la mayor parte del trabajo ya lo realizan los estudiantes de nivel 0, el clasificador de nivel 1 es básicamente un árbitro y tiene sentido elegir un algoritmo bastante simple para este propósito. […] Los modelos lineales simples o árboles con modelos lineales en las hojas suelen funcionar bien.

– Página 499, Minería de datos: técnicas y herramientas prácticas de aprendizaje automático, 2016.

Este es un resumen de alto nivel del método de conjunto de apilamiento, pero podemos generalizar el enfoque y extraer los elementos esenciales.

Esencia de conjuntos apilables

La esencia del apilamiento consiste en aprender a combinar los miembros del conjunto que contribuyen.

De esta manera, podríamos pensar en apilar como asumir que un simple «sabiduría de las masas”(Por ejemplo, promediar) es bueno pero no óptimo y que se pueden lograr mejores resultados si podemos identificar y dar más peso a los expertos en la multitud.

Los expertos y los expertos menores se identifican en función de su habilidad en situaciones nuevas, p. Ej. datos fuera de la muestra. Esta es una distinción importante del simple promediado y la votación, aunque introduce un nivel de complejidad que hace que la técnica sea difícil de implementar correctamente y evitar la fuga de datos y, a su vez, un rendimiento incorrecto y optimista.

Sin embargo, podemos ver que el apilamiento es un enfoque de aprendizaje por conjuntos muy general.

En términos generales, podríamos pensar en un promedio ponderado de modelos de conjuntos como una generalización y mejora de los conjuntos de votación, y el apilamiento como una generalización adicional de un modelo de promedio ponderado.

Como tal, la estructura del procedimiento de apilamiento se puede dividir en tres elementos esenciales; ellos son:

Miembros del conjunto diverso: Cree un conjunto diverso de modelos que hagan diferentes predicciones.

Evaluación de miembros: Evaluar el desempeño de los miembros del conjunto.
Combinar con modelo: Utilice un modelo para combinar las predicciones de los miembros.

Podemos mapear el apilamiento canónico en estos elementos de la siguiente manera:

Miembros del conjunto diverso: Utilice diferentes algoritmos para adaptarse a cada modelo contribuyente.
Evaluación de miembros: Evalúe el rendimiento del modelo en predicciones fuera de la muestra.
Combinar con modelo: Modelo de aprendizaje automático para combinar predicciones.

Esto proporciona un marco en el que podríamos considerar algoritmos de conjuntos relacionados.

Echemos un vistazo más de cerca a otros métodos de conjunto que pueden considerarse parte de la familia de apilamiento.

Familia de conjuntos apilables

Muchas técnicas de aprendizaje automático por conjuntos pueden considerarse precursoras o descendientes del apilamiento.

Como tal, podemos mapearlos en nuestro marco de apilamiento esencial. Este es un ejercicio útil ya que resalta las diferencias entre los métodos y la singularidad de cada técnica. Quizás lo más importante es que también puede generar ideas para variaciones adicionales que quizás desee explorar en su propio proyecto de modelado predictivo.

Echemos un vistazo más de cerca a cuatro de los métodos de conjunto más comunes relacionados con el apilamiento.

Conjuntos de votaciones

Los conjuntos de votación son una de las técnicas de aprendizaje por conjuntos más simples.

Un conjunto de votación generalmente implica el uso de un algoritmo diferente para preparar a cada miembro del conjunto, al igual que el apilamiento. En lugar de aprender a combinar predicciones, se utiliza una estadística simple.

En los problemas de regresión, un conjunto de votantes puede predecir la media o mediana de las predicciones de los miembros del conjunto. Para problemas de clasificación, se predice la etiqueta con más votos, llamada votación en firme, o se predice la etiqueta que recibió la mayor probabilidad de suma, llamada votación suave.

La diferencia importante con el apilado es que no se pesan los modelos en función de su rendimiento. Se supone que todos los modelos tienen el mismo nivel de habilidad en promedio.

Evaluación de miembros: Suponga que todos los modelos son igualmente hábiles.
Combinar con modelo: Estadísticas simples.

Conjunto promedio ponderado

Un promedio ponderado podría considerarse un paso por encima de un conjunto de votantes.

Al igual que los conjuntos de apilamiento y votación, un promedio ponderado utiliza una colección diversa de tipos de modelos como miembros contribuyentes.

A diferencia de la votación, un promedio ponderado supone que algunos miembros contribuyentes son mejores que otros y sopesa las contribuciones de los modelos en consecuencia.

El conjunto promedio ponderado más simple pesa cada modelo en función de su rendimiento en un conjunto de datos de entrenamiento. Una mejora con respecto a este enfoque ingenuo es sopesar a cada miembro en función de su desempeño en un conjunto de datos de reserva, como un conjunto de validación o predicciones fuera del pliegue durante la validación cruzada de k veces.

Un paso más podría implicar ajustar las ponderaciones de los coeficientes para cada modelo mediante un algoritmo de optimización y el rendimiento en un conjunto de datos de reserva.

Estas continuas mejoras de un modelo de promedio ponderado comienzan a parecerse a un modelo de apilamiento primitivo con un modelo lineal entrenado para combinar las predicciones.

Evaluación de miembros: Rendimiento de los miembros en el conjunto de datos de entrenamiento.

Combinar con modelo: Promedio ponderado de predicciones.

Conjunto de mezcla

La combinación es explícitamente un modelo de generalización apilado con una configuración específica.

Una limitación del apilamiento es que no existe una configuración generalmente aceptada. Esto puede hacer que el método sea un desafío para los principiantes, ya que prácticamente cualquier modelo puede usarse como modelo base y metamodelo, y cualquier método de remuestreo se puede usar para preparar el conjunto de datos de entrenamiento para el metamodelo.

La mezcla es un conjunto de apilamiento específico que hace dos recetas.

El primero es utilizar un conjunto de datos de validación de exclusión para preparar las predicciones fuera de la muestra que se utilizan para entrenar el metamodelo. El segundo es utilizar un modelo lineal como metamodelo.

La técnica nació de los requisitos de los profesionales que trabajan en competencias de aprendizaje automático que implican el desarrollo de una gran cantidad de modelos de aprendizaje base, quizás de diferentes fuentes (o equipos de personas), que a su vez pueden ser demasiado costosos computacionalmente y demasiado difícil de coordinar para validar utilizando las particiones de validación cruzada k-fold del conjunto de datos.

Predicciones de miembros: Predicciones fuera de la muestra en un conjunto de datos de validación.
Combinar con modelo: Modelo lineal (por ejemplo, regresión lineal o regresión logística).

Dada la popularidad de los conjuntos de combinación, el apilamiento a veces se ha convertido en una referencia específica al uso de la validación cruzada de k veces para preparar predicciones de muestra para el metamodelo.

Conjunto de superaprendizaje

Al igual que la mezcla, el superconjunto es una configuración específica de un conjunto apilable.

El metamodelo en el súper aprendizaje se prepara utilizando predicciones fuera del pliegue para los alumnos base recopiladas durante la validación cruzada de k pliegues.

Como tal, podríamos pensar en el conjunto de súper aprendices como un hermano de la mezcla donde la principal diferencia es la elección de cómo se preparan las predicciones fuera de la muestra para el meta aprendiz.

Miembros del conjunto diverso: Utilice diferentes algoritmos y diferentes configuraciones de los mismos algoritmos.
Evaluación de miembros: Predicciones fuera del pliegue en la validación cruzada de k pliegues.

Conjuntos de apilamiento personalizados

Hemos revisado el apilamiento canónico como marco para combinar predicciones de una colección diversa de tipos de modelos.

El apilamiento es un método amplio, que puede dificultar el inicio de su uso. Podemos ver cómo los conjuntos de votación y los conjuntos de promedios ponderados son una simplificación del método de apilamiento y los conjuntos de mezcla y los conjuntos de superaprendizaje son una configuración específica de apilamiento.

Esta revisión destacó que el enfoque en diferentes enfoques de apilamiento está en la sofisticación del metamodelo, como el uso de estadísticas, un promedio ponderado o un verdadero modelo de aprendizaje automático. También se ha centrado la atención en la forma en que se entrena el metamodelo, p. Ej. a partir de predicciones de muestra de un conjunto de datos de validación o validación cruzada de k veces.

Un área alternativa para explorar con el apilamiento podría ser la diversidad de los miembros del conjunto más allá del simple uso de diferentes algoritmos.

El apilamiento no es prescriptivo en los tipos de modelos en comparación con el refuerzo y el ensacado que ambos prescriben mediante árboles de decisión. Esto permite mucha flexibilidad para personalizar y explorar el uso del método en un conjunto de datos.

Por ejemplo, podríamos imaginar el ajuste de una gran cantidad de árboles de decisión en muestras de arranque del conjunto de datos de entrenamiento, como hacemos en el ensacado, y luego probamos un conjunto de diferentes modelos para aprender cómo combinar mejor las predicciones de los árboles.

Miembros del conjunto diverso: Árboles de decisión entrenados en muestras de bootstrap.

Alternativamente, podemos imaginar que la cuadrícula busca una gran cantidad de configuraciones para un solo modelo de aprendizaje automático, que es común en un proyecto de aprendizaje automático, y mantiene todos los modelos de ajuste. Estos modelos podrían usarse luego como miembros en un conjunto de apilamiento.

Miembros del conjunto diverso: Configuraciones alternativas del mismo algoritmo.

También podríamos ver el «mezcla de expertos”Técnica como encajar en el método de apilamiento.

La mezcla de expertos, o MoE para abreviar, es una técnica que divide explícitamente un problema en subproblemas y entrena un modelo en cada subproblema, luego usa el modelo para aprender cómo sopesar o combinar mejor las predicciones de los expertos.

Las diferencias importantes entre el apilamiento y la combinación de expertos son el enfoque explícito de dividir y conquistar del MoE y la forma más compleja en que se combinan las predicciones mediante una red de puertas.

Sin embargo, imaginamos dividir un espacio de características de entrada en una cuadrícula de subespacios, entrenar un modelo en cada subespacio y usar un metamodelo que toma las predicciones de los modelos base, así como la muestra de entrada sin procesar y aprende qué modelo base usar. confiar o sopesar lo más condicional en los datos de entrada.

Miembros del conjunto diverso: Divide el espacio de entidades de entrada en subespacios uniformes.

Esto podría extenderse aún más para seleccionar primero el tipo de modelo que funciona bien entre muchos para cada subespacio, manteniendo solo a los expertos de alto rendimiento para cada subespacio, y luego aprendiendo cómo combinar mejor sus predicciones.

Finalmente, podríamos pensar en el metamodelo como una corrección de los modelos base. Podríamos explorar esta idea y hacer que múltiples metamodelos intenten corregir grupos superpuestos o no superpuestos de miembros contribuyentes y capas adicionales de modelos apilados encima de ellos. Este apilamiento más profundo de modelos a veces se usa en competiciones de aprendizaje automático y puede volverse complejo y desafiante de entrenar, pero puede ofrecer un beneficio adicional en las tareas de predicción donde una mejor habilidad del modelo supera ampliamente la capacidad de introspección del modelo.

Podemos ver que la generalidad del método de apilamiento deja mucho espacio para la experimentación y la personalización, donde las ideas de boosting y ensacado pueden incorporarse directamente.

Otras lecturas

Esta sección proporciona más recursos sobre el tema si desea profundizar.

Tutoriales relacionados

Libros

Resumen

En este tutorial, descubrió la esencia del enfoque de generalización apilada para conjuntos de aprendizaje automático.

Específicamente, aprendiste:

El método de conjunto de apilamiento para el aprendizaje automático utiliza un metamodelo para combinar las predicciones de los miembros contribuyentes.
Cómo destilar los elementos esenciales del método de apilamiento y cómo se relacionan las extensiones populares como la mezcla y el superconjunto.

Cómo diseñar nuevas extensiones de apilamiento seleccionando nuevos procedimientos para los elementos esenciales del método.

¿Tiene usted alguna pregunta?
Haga sus preguntas en los comentarios a continuación y haré todo lo posible para responder.