Estudiantes fuertes frente a estudiantes débiles en el aprendizaje conjunto

Es común describir las técnicas de aprendizaje por conjuntos en términos de aprendices débiles y fuertes.

Por ejemplo, podemos desear construir un aprendiz fuerte a partir de las predicciones de muchos aprendices débiles. De hecho, este es el objetivo explícito de la clase impulsora de algoritmos de aprendizaje por conjuntos.

Aunque podemos describir los modelos como débiles o fuertes en general, los términos tienen una definición formal específica y se utilizan como base para un hallazgo importante del campo de la teoría del aprendizaje computacional.

En este tutorial, descubrirá a los estudiantes débiles y fuertes y su relación con el aprendizaje en conjunto.

Después de completar este tutorial, sabrá:

Los estudiantes débiles son modelos que funcionan un poco mejor que la adivinación aleatoria.

Los aprendices fuertes son modelos que tienen una precisión arbitrariamente buena.
Los estudiantes débiles y fuertes son herramientas de la teoría del aprendizaje computacional y proporcionan la base para el desarrollo de la clase de impulso de métodos conjuntos.

Pon en marcha tu proyecto con mi nuevo libro Ensemble Learning Algorithms With Python, que incluye tutoriales paso a paso y el Código fuente de Python archivos para todos los ejemplos.

Empecemos.

Estudiantes fuertes frente a estudiantes débiles para el aprendizaje en conjunto
Foto de G. Lamar, algunos derechos reservados.

Descripción general del tutorial

Este tutorial se divide en tres partes; ellos son:

Estudiantes débiles
Aprendices fuertes
Alumnos débiles frente a fuertes e impulso

Estudiantes débiles

Un clasificador débil es un modelo de clasificación binaria que funciona un poco mejor que la adivinación aleatoria.

Un alumno débil produce un clasificador que es solo un poco más preciso que la clasificación aleatoria.

– Página 21, Clasificación de patrones utilizando métodos de conjunto, 2010.

Esto significa que el modelo hará predicciones que se sabe que tienen alguna habilidad, p. Ej. hacer que las capacidades del modelo sean débiles, aunque no tan débiles que el modelo no tenga habilidad, p. ej. funciona peor que al azar.

Clasificador débil: Formalmente, un clasificador que logra una precisión ligeramente superior al 50 por ciento.

Un clasificador débil a veces se denomina «aprendiz débil» o «aprendiz básico”Y el concepto se puede generalizar más allá de la clasificación binaria.

Aunque el concepto de alumno débil se comprende bien en el contexto de la clasificación binaria, se puede interpretar coloquialmente como cualquier modelo que funcione un poco mejor que un método de predicción ingenuo. En este sentido, es una herramienta útil para pensar en la capacidad de los clasificadores y la composición de conjuntos.

Alumno débil: Coloquialmente, un modelo que rinde un poco mejor que un modelo ingenuo.

Más formalmente, la noción se ha generalizado a la clasificación de clases múltiples y tiene un significado diferente más allá del 50 por ciento de precisión.

Para la clasificación binaria, es bien sabido que el requisito exacto para los estudiantes débiles es ser mejor que la conjetura aleatoria. […] Tenga en cuenta que exigir que los alumnos básicos sean mejores que la suposición aleatoria es demasiado débil para problemas de varias clases, pero requerir una precisión superior al 50% es demasiado estricto.

– Página 46, Métodos de conjunto, 2012.

Se basa en la teoría formal del aprendizaje computacional que propone una clase de métodos de aprendizaje que poseen una capacidad de aprendizaje débil, lo que significa que funcionan mejor que las conjeturas al azar. La capacidad de aprendizaje débil se propone como una simplificación de la capacidad de aprendizaje fuerte más deseable, donde un aprendible logra una buena precisión de clasificación arbitraria.

Un modelo más débil de capacidad de aprendizaje, llamado capacidad de aprendizaje débil, elimina el requisito de que el alumno sea capaz de lograr una precisión arbitrariamente alta; un algoritmo de aprendizaje débil solo necesita generar una hipótesis que funcione un poco mejor (por un polinomio inverso) que la suposición aleatoria.

– La fuerza de la capacidad de aprendizaje débil, 1990.

Es un concepto útil, ya que se utiliza a menudo para describir las capacidades de los miembros contribuyentes de los algoritmos de aprendizaje por conjuntos. Por ejemplo, a veces los miembros de una agregación bootstrap se denominan aprendices débiles en lugar de fuertes, al menos en el significado coloquial del término.

Más específicamente, los estudiantes débiles son la base para la clase impulsora de algoritmos de aprendizaje por conjuntos.

El término impulso se refiere a una familia de algoritmos que pueden convertir a los estudiantes débiles en estudiantes fuertes.

– Página 23, Métodos de conjunto, 2012.

El tipo de modelo de aprendizaje débil más utilizado es el árbol de decisiones. Esto se debe a que la debilidad del árbol puede controlarse mediante la profundidad del árbol durante la construcción.

El árbol de decisión más débil consta de un solo nodo que toma una decisión sobre una variable de entrada y genera una predicción binaria para una tarea de clasificación binaria. Esto se conoce generalmente como «muñón de decisión. «

Aquí, el clasificador débil es solo un «muñón»: un árbol de clasificación de dos nodos terminales.

– Página 339, Los elementos del aprendizaje estadístico, 2016.

Se utiliza tan a menudo como un alumno débil que la decisión y el alumno débil son prácticamente sinónimos.

Tocón de decisión: Un árbol de decisión con un solo nodo que opera en una variable de entrada, cuya salida hace una predicción directamente.

No obstante, también se pueden configurar otros modelos para que sean estudiantes débiles.

Debido a que el impulso requiere un alumno débil, casi cualquier técnica con parámetros de ajuste puede convertirse en un alumno débil. Los árboles, como resultado, son una excelente base de aprendizaje para impulsar …

– Página 205, Modelado predictivo aplicado, 2013.

Aunque no se los conoce formalmente como estudiantes débiles, podemos considerar los siguientes como modelos candidatos de aprendizaje débil:

k-Vecinos más cercanos, con k = 1 operando en una o un subconjunto de variables de entrada.
Perceptrón multicapa, con un solo nodo que opera en una o un subconjunto de variables de entrada.

Bayes ingenuo, operando en una sola variable de entrada.

Ahora que estamos familiarizados con un alumno débil, echemos un vistazo más de cerca a los alumnos fuertes.

¿Quiere comenzar con el aprendizaje por conjuntos?

Realice ahora mi curso intensivo gratuito de 7 días por correo electrónico (con código de muestra).

Haga clic para registrarse y obtener también una versión gratuita en formato PDF del curso.

Descarga tu minicurso GRATIS

Aprendices fuertes

Un clasificador fuerte es un modelo de clasificación binaria que funciona con un rendimiento arbitrario, mucho mejor que la adivinación aleatoria.

Una clase de conceptos se puede aprender (o se puede aprender en gran medida) si existe un algoritmo de tiempo polinomial que logre un error bajo con una confianza alta para todos los conceptos de la clase.

– La fuerza de la capacidad de aprendizaje débil, 1990.

Esto a veces se interpreta como una habilidad perfecta en un conjunto de datos de entrenamiento o reserva, aunque es más probable que se refiera a un «bien» o «útilmente hábil”Modelo.

Clasificador fuerte: Formalmente, un clasificador que logra una precisión arbitrariamente buena.

Buscamos clasificadores sólidos para problemas de modelado predictivo. El objetivo del proyecto de modelado es desarrollar un clasificador sólido que haga predicciones en su mayoría correctas con alta confianza.

Nuevamente, aunque el concepto de clasificador fuerte se comprende bien para la clasificación binaria, se puede generalizar a otros tipos de problemas y podemos interpretar el concepto de manera menos formal como un modelo de buen desempeño, quizás casi óptimo.

Aprendiz fuerte: Coloquialmente, un modelo que rinde muy bien en comparación con un modelo ingenuo.

Intentamos desarrollar un modelo sólido cuando ajustamos un modelo de aprendizaje automático directamente en un conjunto de datos. Por ejemplo, podríamos considerar los siguientes algoritmos como técnicas para ajustar un modelo sólido en el sentido coloquial, donde los hiperparámetros de cada método se ajustan al problema objetivo:

Regresión logística.
Máquinas de vectores soporte.
k-Vecinos más cercanos.

Y muchos más métodos enumerados en la sección anterior o con los que puede estar familiarizado.

Lo que buscamos es un aprendizaje sólido, y podemos contrastar su capacidad con la de los estudiantes débiles, aunque también podemos construir estudiantes fuertes a partir de estudiantes débiles.

Alumnos débiles frente a fuertes e impulso

Hemos establecido que aprendices débiles funcionan un poco mejor que al azar, y eso aprendices fuertes son buenos o incluso casi óptimos y es esto último lo que buscamos para un proyecto de modelado predictivo.

En la teoría del aprendizaje computacional, específicamente el aprendizaje PAC, las clases formales de capacidad de aprendizaje débil y fuerte se definieron con la pregunta abierta de si las dos eran equivalentes o no.

La prueba presentada aquí es constructiva; Se describe un método explícito para convertir directamente un algoritmo de aprendizaje débil en uno que logre una precisión arbitraria. La construcción usa filtrado para modificar la distribución de ejemplos de tal manera que obligue al algoritmo de aprendizaje débil a enfocarse en las partes más difíciles de aprender de la distribución.

– La fuerza de la capacidad de aprendizaje débil, 1990.

Más tarde, se descubrió que efectivamente son equivalentes. Más aún, un aprendiz fuerte puede construirse a partir de muchos aprendices débiles, definidos formalmente. Esto proporcionó la base para la clase de impulso de métodos de aprendizaje en conjunto.

El resultado principal es una prueba de la equivalencia quizás sorprendente de la capacidad de aprendizaje fuerte y débil.

– La fuerza de la capacidad de aprendizaje débil, 1990.

Aunque se hizo este hallazgo teórico, todavía pasaron años antes de que se desarrollaran los primeros métodos de refuerzo viables, implementando el procedimiento.

En particular, Adaptive Boosting, conocido como AdaBoost, fue el primer método de impulso exitoso, que luego condujo a una gran cantidad de métodos, culminando hoy en técnicas de gran éxito como el impulso de gradiente e implementaciones como Extreme Gradient Boosting (XGBoost).

Los conjuntos de estudiantes débiles se estudiaron principalmente en la comunidad de aprendizaje automático. En este hilo, los investigadores a menudo trabajan con estudiantes débiles e intentan diseñar algoritmos poderosos para aumentar el rendimiento de débil a fuerte. Este hilo de trabajo ha llevado al nacimiento de métodos conjuntos famosos como AdaBoost, Bagging, etc., y la comprensión teórica de por qué y cómo se puede impulsar a los estudiantes débiles a los fuertes.

– Página 16, Métodos de conjunto, 2012.

Generalmente, el objetivo de impulsar conjuntos es desarrollar una gran cantidad de estudiantes débiles para un problema de aprendizaje predictivo, y luego combinarlos mejor para lograr un estudiante fuerte. Este es un buen objetivo, ya que los estudiantes débiles son fáciles de preparar pero no deseables, y los estudiantes fuertes son difíciles de preparar y muy deseables.

Dado que los aprendices fuertes son deseables pero difíciles de conseguir, mientras que los aprendices débiles son fáciles de obtener en la práctica real, este resultado abre una dirección prometedora para generar aprendices fuertes mediante métodos conjuntos.

– Páginas 16-17, Ensemble Methods, 2012.

Alumno débil: Fácil de preparar, pero no deseable debido a su escasa habilidad.
Aprendiz fuerte: Difícil de preparar, pero deseable por su gran habilidad.

El procedimiento que se encontró para lograr esto es desarrollar secuencialmente a los estudiantes débiles y agregarlos al conjunto, donde cada estudiante débil es capacitado de una manera para que preste más atención a las partes del dominio del problema en las que los modelos anteriores se equivocaron. Aunque todas las técnicas de refuerzo siguen este procedimiento general con diferencias y optimizaciones específicas, la noción de estudiantes débiles y fuertes es un concepto útil en general para el aprendizaje automático y el aprendizaje por conjuntos.

Por ejemplo, ya hemos visto cómo podemos describir que el objetivo de un modelo predictivo es desarrollar un modelo sólido. Es una práctica común evaluar el rendimiento de un modelo frente a un modelo básico o ingenuo, como las predicciones aleatorias para la clasificación binaria. Un alumno débil se parece mucho al modelo ingenuo, aunque ligeramente hábil y utiliza un mínimo de información del dominio del problema, en lugar de ser completamente ingenuo.

Tenga en cuenta que, aunque técnicamente no construimos aprendices débiles en la agregación bootstrap (ensacado), lo que significa que los miembros no son tocones de decisión, nuestro objetivo es crear árboles de decisión más débiles para formar el conjunto. Esto a menudo se logra ajustando los árboles en subconjuntos muestreados de los datos y no podando los árboles, lo que les permite sobreajustar ligeramente los datos de entrenamiento.

Para la clasificación, podemos entender el efecto de embolsado en términos de un consenso de estudiantes independientes débiles.

– Página 286, Los elementos del aprendizaje estadístico, 2016.

Ambos cambios se realizan para buscar árboles menos correlacionados, pero tienen el efecto de entrenar modelos más débiles, pero quizás no débiles, para formar el conjunto.

Harpillera: capacita explícitamente a los alumnos más débiles (pero no débiles).

Considere la generalización apilada (apilamiento) que entrena un modelo para combinar mejor las predicciones de varios modelos diferentes que se ajustan al mismo conjunto de datos de entrenamiento. Cada modelo de nivel 0 que contribuye es, en efecto, un alumno fuerte, y el modelo de meta nivel 1 busca hacer un modelo más sólido combinando las predicciones de los modelos sólidos.

Apilado: combina explícitamente las predicciones de aprendices sólidos.

La mezcla de expertos (MoE) opera de manera similar, entrenando múltiples modelos fuertes (los expertos) que se combinan en modelos con suerte más fuertes a través de un metamodelo, la red de activación y el método de combinación.

La mezcla de expertos también puede verse como un algoritmo de selección de clasificadores, donde los clasificadores individuales son entrenados para convertirse en expertos en alguna porción del espacio de características. En este contexto, los clasificadores individuales están capacitados para convertirse en expertos y, por lo tanto, no suelen ser clasificadores débiles.

– Página 16, Ensemble Machine Learning, 2012.

Esto resalta que aunque la capacidad de aprendizaje y los estudiantes débiles y fuertes son un hallazgo teórico importante y una base para impulsar, las ideas más generalizadas de estos clasificadores son herramientas útiles para diseñar y seleccionar métodos de conjunto.

Otras lecturas

Esta sección proporciona más recursos sobre el tema si desea profundizar.

Documentos

Libros

Artículos

Resumen

En este tutorial, descubrió a los estudiantes débiles y fuertes y su relación con el aprendizaje en conjunto.

Específicamente, aprendiste:

Los estudiantes débiles son modelos que funcionan un poco mejor que las adivinanzas al azar.
Los aprendices fuertes son modelos que tienen una precisión arbitrariamente buena.

Los estudiantes débiles y fuertes son herramientas de la teoría del aprendizaje computacional y proporcionan la base para el desarrollo de la clase de impulso de métodos conjuntos.

¿Tiene usted alguna pregunta?
Haga sus preguntas en los comentarios a continuación y haré todo lo posible para responder.

¡Controle el aprendizaje conjunto moderno!

Mejore sus predicciones en minutos

… con solo unas pocas líneas de código Python

Descubra cómo en mi nuevo libro electrónico:
Algoritmos de aprendizaje por conjuntos con Python

Proporciona tutoriales de autoaprendizaje con código de trabajo completo en:
Apilado, Votación, Impulsando, Harpillera, Mezcla, Súper aprendiz,
y mucho más…

Lleve las técnicas modernas de aprendizaje por conjuntos a
Sus proyectos de aprendizaje automático

Mira lo que hay dentro

Descripción general del tutorial

Estudiantes débiles

¿Quiere comenzar con el aprendizaje por conjuntos?

Aprendices fuertes

Alumnos débiles frente a fuertes e impulso

Otras lecturas

Documentos

Libros

Artículos

Resumen

¡Controle el aprendizaje conjunto moderno!

Mejore sus predicciones en minutos

Lleve las técnicas modernas de aprendizaje por conjuntos a Sus proyectos de aprendizaje automático

Lleve las técnicas modernas de aprendizaje por conjuntos a
Sus proyectos de aprendizaje automático