Saltar al contenido

Una suave introducción al aprendizaje en conjunto

23 de octubre de 2020

Muchas decisiones que tomamos en la vida se basan en las opiniones de muchas otras personas.

Esto incluye la elección de un libro para leer basado en las revisiones, la elección de un curso de acción basado en el consejo de múltiples médicos y la determinación de la culpabilidad.

A menudo, la toma de decisiones de un grupo de individuos resulta en un mejor resultado que la decisión tomada por cualquier miembro del grupo. Esto se conoce generalmente como la sabiduría de la multitud.

Podemos lograr un resultado similar combinando las predicciones de múltiples modelos de aprendizaje de máquinas para problemas de modelado predictivo de regresión y clasificación. Esto se conoce generalmente como aprendizaje de máquina en conjunto, o simplemente aprendizaje en conjunto.

En este post, descubrirán una suave introducción al aprendizaje en conjunto.

Después de leer este post, lo sabrás:

  • Muchas decisiones que tomamos involucran las opiniones o votos de otras personas.
  • La capacidad de los grupos de personas para tomar mejores decisiones que los individuos se llama la sabiduría de la multitud.
  • El aprendizaje en conjunto de las máquinas implica la combinación de predicciones de múltiples modelos hábiles.

Empecemos.

Una suave introducción al aprendizaje en conjunto

Una suave introducción al aprendizaje en conjunto
Foto de la Oficina de Gestión de Tierras, algunos derechos reservados.

Visión general

Este tutorial está dividido en tres partes; son:

  1. Tomar decisiones importantes
  2. La sabiduría de las multitudes
  3. Aprendizaje en conjunto de la máquina

Tomar decisiones importantes

Considere las decisiones importantes que toma en su vida.

Por ejemplo:

  • Qué libro comprar y leer a continuación.
  • A qué universidad asistir.

Los libros candidatos son los que suenan interesantes, pero el libro que compramos podría tener las críticas más favorables. Las universidades candidatas son las que ofrecen los cursos que nos interesan, pero podríamos elegir una en base a los comentarios de amigos y conocidos que tienen experiencia de primera mano.

Podríamos confiar en las reseñas y las clasificaciones con estrellas porque cada individuo que contribuyó una reseña no estaba (esperemos) afiliado al libro y era independiente de las otras personas que dejaron una reseña. Cuando no es así, la confianza en el resultado es cuestionable y la confianza en el sistema se ve sacudida, por lo que Amazon se esfuerza en eliminar las críticas falsas de los libros.

Además, considere las decisiones importantes que tomamos de manera más personal.

Por ejemplo, el tratamiento médico de una enfermedad.

Aceptamos el consejo de un experto, pero buscamos una segunda, tercera y aún más opiniones para confirmar que estamos tomando el mejor curso de acción.

El consejo de la segunda y tercera opinión puede o no coincidir con la primera opinión, pero lo sopesamos mucho porque se proporciona de forma desapasionada, objetiva e independiente. Si los médicos se confabularon en su opinión, entonces sentiríamos que el proceso de buscar una segunda y tercera opinión ha fracasado.

… siempre que nos enfrentamos a la toma de una decisión que tiene alguna consecuencia importante, a menudo buscamos las opiniones de diferentes «expertos» para ayudarnos a tomar esa decisión …

– Página 2, Ensemble Machine Learning, 2012.

Por último, considere las decisiones que tomamos como sociedad.

Por ejemplo:

  • que debe representar una zona geográfica en un gobierno.
  • Si alguien es culpable de un crimen.

La elección democrática de los representantes se basa (de alguna manera) en los votos independientes de los ciudadanos.

La toma de decisiones basada en la aportación de múltiples personas o expertos ha sido una práctica común en la civilización humana y sirve de base para una sociedad democrática.

– Página v, Métodos de ensamblaje, 2012.

Recomendado:  Razor Labs -La nueva revolución industrial comienza con una empresa israelí

La culpabilidad de un individuo por un delito grave puede ser determinada por un jurado de pares independientes, a menudo secuestrado para hacer cumplir la independencia de su interpretación. Los casos también pueden ser apelados en múltiples niveles, proporcionando segundas, terceras y más opiniones sobre el resultado.

El sistema judicial de muchos países, ya sea que se base en un jurado de pares o en un panel de jueces, también se basa en la toma de decisiones en conjunto.

– Páginas 1-2, Ensemble Machine Learning, 2012.

Todos estos son ejemplos de un resultado al que se ha llegado a través de la combinación de opiniones, votos o decisiones de nivel inferior.

… la toma de decisiones en conjunto no es nada nuevo para nosotros; como humanos, usamos tales sistemas en nuestra vida diaria tan a menudo que es quizás una segunda naturaleza para nosotros.

– Página 1, Ensemble Machine Learning, 2012.

En cada caso, podemos ver que hay propiedades de las decisiones de nivel inferior que son críticas para que el resultado sea útil, como la creencia en su independencia y que cada una tiene cierta validez por sí misma.

Este enfoque de la toma de decisiones es tan común, que tiene un nombre.

La sabiduría de las multitudes

Este enfoque de la toma de decisiones cuando se utilizan humanos que toman las decisiones de nivel inferior se suele denominar «la sabiduría de la multitud».

Se refiere al caso en que la opinión calculada a partir del conjunto de un grupo de personas suele ser más precisa, útil o correcta que la opinión de cualquier individuo del grupo.

Un caso famoso de esto de hace más de 100 años, y frecuentemente citado, es el de un concurso en una feria en Plymouth, Inglaterra, para estimar el peso de un buey. Los individuos hicieron sus conjeturas y la persona cuya conjetura se acercó más al peso real ganó la carne.

El estadístico Francis Galton recogió todas las suposiciones después y calculó el promedio de las mismas.

…sumó las estimaciones de todos los concursantes, y calculó la media de las suposiciones del grupo. Ese número representaba, podría decirse, la sabiduría colectiva de la multitud de Plymouth. Si la multitud fuera una sola persona, eso era lo que habría adivinado el peso del buey.

– Página xiii, The Wisdom of Crowds, 2004.

Encontró que la media de las suposiciones hechas por los concursantes era muy cercana al peso real. Es decir, tomar el valor promedio de todos los pesos numéricos de los 800 participantes era una forma precisa de determinar el peso real.

La multitud había adivinado que el buey, después de ser sacrificado y vestido, pesaría 1.197 libras. Después de ser sacrificado y vestido, el buey pesaba 1.198 libras. En otras palabras, el juicio de la multitud fue esencialmente perfecto.

– Página xiii, The Wisdom of Crowds, 2004.

Este ejemplo se da al comienzo del libro de James Surowiecki de 2004 titulado «The Wisdom of Crowds» que explora la capacidad de los grupos de seres humanos para tomar decisiones y hacer predicciones que a menudo son mejores que las de los miembros del grupo.

Esta inteligencia, o lo que llamaré «la sabiduría de las multitudes», está trabajando en el mundo de muchas maneras diferentes.

– Página xiv, The Wisdom of Crowds, 2004.

Recomendado:  División de la prueba del tren para evaluar los algoritmos de aprendizaje automático

El libro motiva la preferencia de promediar las conjeturas, los votos y las opiniones de grupos de personas al tomar algunas decisiones importantes en lugar de buscar y consultar a un solo experto.

…sentimos la necesidad de «perseguir al experto». El argumento de este libro es que perseguir al experto es un error, y uno muy costoso. Deberíamos dejar de cazar y preguntarle a la multitud (que, por supuesto, incluye a los genios así como a todos los demás) en su lugar. Lo más probable es que lo sepa.

– Página xv, The Wisdom of Crowds, 2004.

El libro continúa resaltando un número de propiedades de cualquier sistema que toma decisiones basadas en grupos de personas, resumidas muy bien en el libro de 2010 de Lior Rokach titulado «Pattern Classification Using Ensemble Methods» (página 22), como:

  • Diversidad de opiniones: Cada miembro debe tener información privada aunque sea una interpretación excéntrica de los hechos conocidos.
  • Independencia: Las opiniones de los miembros no están determinadas por las opiniones de los que les rodean.
  • Descentralización: Los miembros pueden especializarse y sacar conclusiones basadas en los conocimientos locales.
  • Agregación: Existe algún mecanismo para convertir los juicios privados en una decisión colectiva.

Como sistema de toma de decisiones, el enfoque no siempre es el más eficaz (por ejemplo, las burbujas de los mercados de valores, las modas, etc.), pero puede ser eficaz en una serie de ámbitos diferentes en los que los resultados son importantes.

Podemos usar este enfoque para la toma de decisiones en el aprendizaje aplicado de la máquina.

Aprendizaje en conjunto de la máquina

El aprendizaje aplicado de las máquinas a menudo implica el ajuste y la evaluación de modelos en un conjunto de datos.

Dado que no podemos saber de antemano qué modelo funcionará mejor en el conjunto de datos, esto puede implicar mucho ensayo y error hasta que encontremos un modelo que funcione bien o mejor para nuestro proyecto.

Esto es como tomar una decisión usando un solo experto. Tal vez el mejor experto que podamos encontrar.

Un enfoque complementario consiste en preparar múltiples modelos diferentes y luego combinar sus predicciones. Esto se denomina un modelo de aprendizaje de máquina de conjunto, o simplemente un conjunto, y el proceso de encontrar un modelo de conjunto de buen rendimiento se denomina «aprendizaje en conjunto“.

La metodología del conjunto imita nuestra segunda naturaleza de buscar varias opiniones antes de tomar una decisión crucial.

– Página vii, Clasificación de patrones usando métodos de conjunto, 2010.

Esto es como tomar una decisión usando las opiniones de múltiples expertos.

El tipo de conjunto más común consiste en entrenar múltiples versiones del mismo modelo de aprendizaje por máquina de manera que se asegure que cada miembro del conjunto sea diferente (por ejemplo, los árboles de decisión se ajustan a diferentes submuestras del conjunto de datos de entrenamiento), para luego combinar las predicciones utilizando promedios o votaciones.

Un enfoque menos común, aunque igualmente eficaz, consiste en entrenar diferentes algoritmos sobre los mismos datos (por ejemplo, un árbol de decisiones, una máquina de vectores de apoyo y una red neuronal) y combinar sus predicciones.

Recomendado:  El nuevo mecanismo de aprendizaje del cerebro exige la revisión de la hipótesis de la neurociencia sostenida durante mucho tiempo

Al igual que la combinación de las opiniones de los humanos en una multitud, la eficacia del conjunto depende de que cada modelo tenga alguna habilidad (mejor que el azar) y cierta independencia de los otros modelos. Este último punto a menudo se interpreta como que el modelo es hábil de una manera diferente a otros modelos del conjunto.

La esperanza es que el conjunto resulte un modelo de mejor rendimiento que cualquier miembro contribuyente.

El principio básico consiste en sopesar varios clasificadores de patrones individuales y combinarlos para llegar a una clasificación mejor que la obtenida por cada uno de ellos por separado.

– Página vii, Clasificación de patrones usando métodos de conjunto, 2010.

En el peor de los casos, el conjunto limita el peor de los casos de predicción reduciendo la varianza de las predicciones. El rendimiento del modelo puede variar con los datos de entrenamiento (y la naturaleza estocástica del algoritmo de aprendizaje en algunos casos), lo que da como resultado un mejor o peor rendimiento para cualquier modelo específico.

… el objetivo de los sistemas de conjunto es crear varios clasificadores con un sesgo relativamente fijo (o similar) y luego combinar sus resultados, por ejemplo mediante el promedio, para reducir la varianza.

– Página 2, Ensemble Machine Learning, 2012.

Un conjunto puede suavizar esto y asegurar que las predicciones hechas se acerquen más al desempeño promedio de los miembros contribuyentes. Además, la reducción de la variabilidad de las predicciones a menudo resulta en un aumento de la habilidad del conjunto. Esto viene con el costo computacional adicional de ajustar y mantener múltiples modelos en lugar de un solo modelo.

Aunque las predicciones de conjunto tendrán una menor varianza, no se garantiza que tengan un mejor rendimiento que cualquier miembro individual contribuyente.

… los investigadores de la comunidad de inteligencia computacional y de aprendizaje de máquinas han estudiado esquemas que comparten ese procedimiento de decisión conjunta. Estos esquemas se conocen generalmente como aprendizaje en conjunto, que se sabe que reduce la varianza de los clasificadores y mejora la solidez y precisión del sistema de decisión.

– Página v, Métodos de ensamblaje, 2012.

A veces, el modelo de mejor rendimiento, por ejemplo, el mejor experto, es suficientemente superior en comparación con otros modelos que la combinación de sus predicciones con otros modelos puede dar lugar a un peor rendimiento.

Como tal, la selección de modelos, incluso los modelos de conjuntos, todavía requiere experimentos cuidadosamente controlados en un robusto arnés de pruebas.

Más lecturas

Esta sección proporciona más recursos sobre el tema si desea profundizar en él.

Libros

Artículos

Resumen

En este post, descubriste una suave introducción al aprendizaje en conjunto.

Específicamente, aprendiste:

  • Muchas decisiones que tomamos involucran las opiniones o votos de otras personas.
  • La capacidad de los grupos de personas para tomar mejores decisiones que los individuos se llama la sabiduría de la multitud.
  • El aprendizaje en conjunto de las máquinas implica la combinación de predicciones de múltiples modelos hábiles.

¿Tiene alguna pregunta?
Haga sus preguntas en los comentarios de abajo y haré lo posible por responder.