Los métodos de conjunto implican combinar las predicciones de varios modelos.
La combinación de las predicciones es una parte central del método de conjunto y depende en gran medida de los tipos de modelos que contribuyen al conjunto y el tipo de problema de predicción que se está modelando, como una clasificación o regresión.
No obstante, existen técnicas comunes o estándar que se pueden utilizar para combinar predicciones que se pueden implementar fácilmente y que a menudo dan como resultado un rendimiento predictivo bueno o mejor.
En esta publicación, descubrirá técnicas comunes para combinar predicciones para el aprendizaje en conjunto.
Después de leer esta publicación, sabrá:
- La combinación de predicciones de modelos contribuyentes es una propiedad clave de un modelo de conjunto.
- Las técnicas de votación se utilizan con mayor frecuencia cuando se combinan predicciones para la clasificación.
- Las técnicas estadísticas se utilizan con mayor frecuencia cuando se combinan predicciones para la regresión.
Empecemos.
Descripción general del tutorial
Este tutorial se divide en tres partes; ellos son:
- Combinando predicciones para el aprendizaje en conjunto
- Combinando predicciones de clasificación
- Combinando etiquetas de clase previstas
- Combinando probabilidades de clase pronosticadas
- Combinando predicciones de regresión
Combinando predicciones para el aprendizaje en conjunto
Una parte clave de un método de aprendizaje por conjuntos consiste en combinar las predicciones de varios modelos.
Es a través de la combinación de las predicciones que se logra el beneficio del método de aprendizaje por conjuntos, es decir, un mejor rendimiento predictivo. Como tal, hay muchas formas en que se pueden combinar las predicciones, tanto que es un campo de estudio completo.
Después de generar un conjunto de alumnos de base, en lugar de intentar encontrar el mejor alumno individual, los métodos de conjunto recurren a la combinación para lograr una fuerte capacidad de generalización, donde el método de combinación juega un papel crucial.
– Página 67, Métodos de conjunto, 2012.
Los algoritmos de aprendizaje automático de conjuntos estándar prescriben cómo combinar predicciones; Sin embargo, es importante considerar el tema de forma aislada por una serie de razones, tales como:
- Interpretar las predicciones realizadas por algoritmos de conjuntos estándar.
- Especificar manualmente un método de combinación de predicción personalizado para un algoritmo.
- Desarrollando sus propios métodos de conjunto.
Los métodos de aprendizaje por conjuntos no suelen ser muy complejos y desarrollar su propio método de conjunto o especificar la manera en que se combinan las predicciones es una práctica relativamente fácil y común.
La forma en que se combinan las predicciones depende de los modelos que hacen predicciones y del tipo de problema de predicción.
La estrategia utilizada en este paso depende, en parte, del tipo de clasificadores utilizados como miembros del conjunto. Por ejemplo, algunos clasificadores, como las máquinas de vectores de soporte, solo proporcionan salidas de etiquetas con valores discretos.
– Página 6, Ensemble Machine Learning, 2012.
Por ejemplo, la forma de las predicciones realizadas por los modelos coincidirá con el tipo de problema de predicción, como la regresión para predecir números y la clasificación para predecir etiquetas de clase. Además, algunos tipos de modelos solo pueden predecir una etiqueta de clase o una distribución de probabilidad de clase, mientras que otros pueden admitir ambas para una tarea de clasificación.
Usaremos esta división del tipo de predicción basada en el tipo de problema como base para explorar las técnicas comunes utilizadas para combinar predicciones de modelos contribuyentes en un conjunto.
En la siguiente sección, veremos cómo combinar predicciones para tareas de modelado predictivo de clasificación.
Combinando predicciones de clasificación
La clasificación se refiere a problemas de modelado predictivo que implican predecir una etiqueta de clase dada una entrada.
La predicción realizada por un modelo puede ser una etiqueta de clase nítida directamente o puede ser una probabilidad de que un ejemplo pertenezca a cada clase, lo que se denomina probabilidad de pertenencia a la clase.
El desempeño de un problema de clasificación a menudo se mide usando precisión o un recuento relacionado o proporción de predicciones correctas. En el caso de evaluar probabilidades predichas, se pueden convertir en etiquetas de clase nítidas seleccionando un umbral de corte o evaluadas utilizando métricas especializadas como la entropía cruzada.
Revisaremos la combinación de predicciones para la clasificación por separado tanto para etiquetas de clase como para probabilidades.
Combinando etiquetas de clase previstas
Una etiqueta de clase predicha a menudo se asigna a algo significativo para el dominio del problema.
Por ejemplo, un modelo puede predecir un color como «rojo» o «verde“. Sin embargo, internamente, el modelo predice una representación numérica para la etiqueta de clase, como 0 para «rojo«, 1 para»verde«Y 2 para»azul”Para nuestro ejemplo de clasificación de colores.
Los métodos para combinar etiquetas de clase son quizás más fáciles de considerar si trabajamos directamente con las etiquetas de clase codificadas con números enteros.
Quizás el enfoque más simple, más común y, a menudo, más efectivo es combinar las predicciones votando.
La votación es el método de combinación más popular y fundamental para las salidas nominales.
– Página 71, Métodos de conjunto, 2012.
La votación generalmente involucra a cada modelo que hace una predicción y asigna un voto para la clase que se predijo. Los votos se cuentan y luego se elige un resultado utilizando los votos o recuentos de alguna manera.
Hay muchos tipos de votación, así que veamos los cuatro más comunes:
- Voto por pluralidad.
- Votación mayoritaria.
- Votación unánime.
- Votación ponderada.
Voto simple, llamado votación por pluralidad, selecciona la etiqueta de clase con más votos.
Si dos o más clases tienen el mismo número de votos, entonces el empate se rompe arbitrariamente, aunque de manera consistente, como clasificar las etiquetas de clase que tienen un empate y seleccionar la primera, en lugar de seleccionar una al azar. Esto es importante para que el mismo modelo con los mismos datos siempre haga la misma predicción.
Dados los vínculos, es común tener un número impar de miembros del conjunto en un intento de romper automáticamente los vínculos, a diferencia de un número par de miembros del conjunto donde los vínculos pueden ser más probables.
Desde una perspectiva estadística, esto se llama la moda o el valor más común de la colección de predicciones.
Por ejemplo, considere las tres predicciones realizadas por un modelo para un problema de predicción de color de tres clases:
- El modelo 1 predice «verde”O 1.
- El modelo 2 predice «verde”O 1.
- Model 3 predice «rojo”O 0.
Los votos son, por tanto:
- Votos rojos: 1
- Votos Verdes: 2
- Votos azules: 0
La predicción sería «verde”Dado que tiene la mayor cantidad de votos.
Votación mayoritaria selecciona la etiqueta de clase que tiene más de la mitad de los votos. Si ninguna clase tiene más de la mitad de los votos, entonces un “sin predicción» está hecho. Curiosamente, se puede demostrar que la votación por mayoría es un método óptimo para combinar clasificadores, si son independientes.
Si las salidas del clasificador son independientes, entonces se puede demostrar que la votación por mayoría es la regla de combinación óptima.
– Página 1, Ensemble Machine Learning, 2012.
Voto unánime está relacionado con la votación por mayoría en el sentido de que en lugar de requerir la mitad de los votos, el método requiere que todos los modelos predigan el mismo valor; de lo contrario, no se hace ninguna predicción.
Voto ponderado sopesa la predicción hecha por cada modelo de alguna manera. Un ejemplo sería sopesar las predicciones basadas en el rendimiento promedio del modelo, como la precisión de la clasificación.
El peso de cada clasificador se puede establecer de forma proporcional a su rendimiento de precisión en un conjunto de validación.
– Página 67, Clasificación de patrones utilizando métodos de conjunto, 2010.
Asignar pesos a los clasificadores puede convertirse en un proyecto en sí mismo y podría implicar el uso de un algoritmo de optimización y un conjunto de datos de reserva, un modelo lineal o incluso otro modelo de aprendizaje automático por completo.
Entonces, ¿cómo asignamos los pesos? Si supiéramos, a priori, qué clasificadores funcionarían mejor, solo usaríamos esos clasificadores. En ausencia de dicha información, una estrategia plausible y de uso común es utilizar el rendimiento de un clasificador en un conjunto de datos de validación (o incluso entrenamiento) separado, como una estimación del rendimiento de generalización de ese clasificador.
– Página 8, Ensemble Machine Learning, 2012.
La idea de la votación ponderada es que algunos clasificadores tienen más probabilidades de ser precisos que otros y deberíamos recompensarlos otorgándoles una mayor proporción de votos.
Si tenemos motivos para creer que es más probable que algunos de los clasificadores sean correctos que otros, ponderar las decisiones de esos clasificadores con mayor peso puede mejorar aún más el rendimiento general en comparación con el de la votación por pluralidad.
– Página 7, Ensemble Machine Learning, 2012.
Combinando probabilidades de clase pronosticadas
Las probabilidades resumen la probabilidad de un evento como un valor numérico entre 0.0 y 1.0.
Cuando se predice para la pertenencia a una clase, implica una probabilidad asignada para cada clase, sumando en conjunto el valor 1.0; por ejemplo, un modelo puede predecir:
- Rojo: 0,75
- Verde: 0,10
- Azul: 0,15
Podemos ver esa clase «rojo”Tiene la probabilidad más alta o es el resultado más probable predicho por el modelo y que la distribución de probabilidades entre las clases (0,75 + 0,10 + 0,15) suma 1,0.
La forma en que se combinan las probabilidades depende del resultado que se requiera.
Por ejemplo, si se requieren probabilidades, entonces las probabilidades predichas independientes se pueden combinar directamente.
Quizás el enfoque más simple para combinar probabilidades es sumar las probabilidades para cada clase y pasar los valores predichos a través de una función softmax. Esto asegura que los puntajes se normalicen adecuadamente, lo que significa que las probabilidades en las etiquetas de clase suman 1.0.
… tales salidas – con la normalización adecuada (como la normalización softmax […]) – se puede interpretar como el grado de apoyo brindado a esa clase
– Página 8, Ensemble Machine Learning, 2012.
Más comúnmente deseamos predecir una etiqueta de clase a partir de probabilidades predichas.
El enfoque más común es usar la votación, donde las probabilidades predichas representan el voto realizado por cada modelo para cada clase. A continuación, se suman los votos y se puede utilizar un método de votación de la sección anterior, como seleccionar la etiqueta con la mayor probabilidad sumada o la mayor probabilidad media.
- Votar usando probabilidades medias
- Votar usando sumas de probabilidades
- Votar usando probabilidades de suma ponderada
Generalmente, este enfoque para tratar las probabilidades como votos para elegir una etiqueta de clase se conoce como votación blanda.
Si todos los clasificadores individuales se tratan por igual, el método de votación suave simple genera la salida combinada simplemente promediando todas las salidas individuales …
– Página 76, Métodos de conjunto, 2012.
Combinando predicciones de regresión
La regresión se refiere a problemas de modelado predictivo que implican predecir un valor numérico dado una entrada.
El rendimiento para un problema de regresión a menudo se mide usando el error promedio, como el error absoluto promedio o el error cuadrático medio.
La combinación de predicciones numéricas a menudo implica el uso de métodos estadísticos simples; por ejemplo:
- Valor medio previsto
- Valor medio previsto
Ambos dan la tendencia central de la distribución de predicciones.
El promedio es el método de combinación más popular y fundamental para salidas numéricas.
– Página 68, Métodos de conjunto, 2012.
La media, también llamada promedio, es la suma normalizada de las predicciones. El valor medio predicho es más apropiado cuando la distribución de las predicciones es gaussiana o casi gaussiana.
Por ejemplo, la media se calcula como la suma de los valores predichos divididos por el número total de predicciones. Si tres modelos predijeron los siguientes precios:
- Modelo 1: 99,00
- Modelo 2: 101.00
- Modelo 3: 98,00
La media predicha se calcularía como:
- Predicción media = (99,00 + 101,00 + 98,00) / 3
- Predicción media = 298,00 / 3
- Predicción media = 99,33
Debido a su simplicidad y eficacia, el promedio simple se encuentra entre los métodos más utilizados y representa la primera opción en muchas aplicaciones reales.
– Página 69, Métodos de conjunto, 2012.
La mediana es el valor medio si se ordenaron todas las predicciones y también se conoce como el percentil cincuenta. El valor mediano predicho es más apropiado para usar cuando la distribución de predicciones no se conoce o no sigue una distribución de probabilidad gaussiana.
Dependiendo de la naturaleza del problema de predicción, se puede desear una predicción conservadora, como la máxima o la mínima. Además, la distribución se puede resumir para dar una medida de incertidumbre, como informar tres valores para cada predicción:
- Valor mínimo previsto
- Valor medio previsto
- Valor máximo previsto
Al igual que con la clasificación, las predicciones realizadas por cada modelo se pueden ponderar por el rendimiento esperado del modelo o algún otro valor, y se puede informar la media ponderada de las predicciones.
Otras lecturas
Esta sección proporciona más recursos sobre el tema si desea profundizar.
Libros
Artículos
Resumen
En esta publicación, descubrió técnicas comunes para combinar predicciones para el aprendizaje en conjunto.
Específicamente, aprendiste:
- La combinación de predicciones de modelos contribuyentes es una propiedad clave de un modelo de conjunto.
- Las técnicas de votación se utilizan con mayor frecuencia cuando se combinan predicciones para la clasificación.
- Las técnicas estadísticas se utilizan con mayor frecuencia cuando se combinan predicciones para la regresión.
¿Tiene usted alguna pregunta?
Haga sus preguntas en los comentarios a continuación y haré todo lo posible para responder.