La complejidad de los algoritmos de aprendizaje en conjunto y la navaja de Occam

La navaja de Occam sugiere que en el aprendizaje de las máquinas, deberíamos preferir modelos más simples con menos coeficientes sobre modelos complejos como los conjuntos.

Tomado al pie de la letra, la navaja es un heurístico que sugiere que las hipótesis más complejas hacen más suposiciones que, a su vez, las hacen demasiado estrechas y no generalizan bien. En el aprendizaje automático, sugiere modelos complejos como los grupos se equiparán con el conjunto de datos de entrenamiento y se desempeñan mal con los nuevos datos.

En la práctica, los conjuntos son casi universalmente el tipo de modelo elegido en los proyectos en los que la capacidad de predicción es la consideración más importante. Además, los resultados empíricos muestran un continua reducción del error de generalización a medida que aumenta la complejidad de un modelo de aprendizaje en conjunto. Estos hallazgos están en desacuerdo con el principio de la navaja de Occam tomado al pie de la letra.

En este tutorial, descubrirás cómo reconciliar la Navaja de Occam con el aprendizaje de la máquina de ensamblaje.

Después de completar este tutorial, lo sabrás:

La navaja de Occam es una heurística que sugiere elegir modelos de aprendizaje de máquinas más simples, ya que se espera que se generalicen mejor.

La heurística puede dividirse en dos navajas, una de las cuales es verdadera y sigue siendo una herramienta útil y la otra que es falsa y debe ser abandonada.
Los algoritmos de aprendizaje en conjunto, como el boosting, proporcionan un caso específico de cómo falla la segunda navaja y la complejidad añadida puede resultar en un menor error de generalización.

Empecemos.

La complejidad de los algoritmos de aprendizaje en conjunto y la navaja de Occam
Foto de dylan_odonnell, algunos derechos reservados.

Resumen del Tutorial

Este tutorial está dividido en tres partes; son:

La navaja de Occam para la selección del modelo

Las dos navajas de Occam para el aprendizaje automático
El aprendizaje de la navaja y el conjunto de Occam

La navaja de Occam para la selección del modelo

La selección de modelos es el proceso de elegir uno de entre muchos posibles modelos de aprendizaje de máquinas para un proyecto de modelado predictivo.

A menudo es sencillo seleccionar un modelo en función de su rendimiento esperado, por ejemplo, elegir el modelo de mayor precisión o de menor error de predicción.

Otra consideración importante es elegir modelos más simples en lugar de modelos complejos.

Los modelos más sencillos se definen típicamente como modelos que hacen menos suposiciones o tienen menos elementos, caracterizados más comúnmente como menos coeficientes (por ejemplo, reglas, capas, pesos, etc.). La razón para elegir modelos más simples está vinculada a la Navaja de Occam.

La idea es que la mejor teoría científica es la más pequeña que explica todos los hechos.

– Página 197, Minería de datos: Herramientas y técnicas prácticas de aprendizaje de máquinas, 2016.

La Navaja de Occam es un enfoque para la resolución de problemas y se invoca comúnmente para significar que si todo lo demás es igual, deberíamos preferir las soluciones más simples.

La Navaja de Occam: Si todo lo demás es igual, la solución más simple es correcta.

Lleva el nombre de Guillermo de Ockham y se propuso para contrarrestar la filosofía cada vez más elaborada sin aumentos equivalentes en el poder de predicción.

La famosa navaja de Guillermo de Occam afirma que «Nunquam ponenda est pluralitas sin necesitate», que, traducido aproximadamente, significa «Las entidades no deben multiplicarse más allá de la necesidad».

– Las Dos Navajas de Occam: The Sharp and the Blunt, 1998.

No es una regla, sino más bien un heurístico para la resolución de problemas, y se invoca comúnmente en la ciencia para preferir las hipótesis más simples que hacen menos suposiciones a las más complejas que hacen más suposiciones.

Hay una larga tradición en la ciencia de que, en igualdad de condiciones, las teorías simples son preferibles a las complejas. Esto se conoce como la Navaja de Occam, en honor al filósofo medieval Guillermo de Occam (o Ockham).

– Página 197, Minería de datos: Herramientas y técnicas prácticas de aprendizaje de máquinas, 2016.

El problema de las hipótesis complejas con más supuestos es que probablemente sean demasiado específicas.

Pueden incluir detalles de casos específicos que están a la mano o son fácilmente accesibles y, a su vez, pueden no generalizarse a nuevos casos. Es decir, cuantos más supuestos tenga una hipótesis, más estrecha se espera que sea su aplicación. A la inversa, un número menor de supuestos sugiere una hipótesis más general con un mayor poder de predicción para un mayor número de casos.

Hipótesis simple: Menos suposiciones y, a su vez, una amplia aplicabilidad.
Hipótesis compleja: Más suposiciones y, a su vez, una aplicabilidad limitada.

Esto tiene implicaciones en el aprendizaje automático, ya que estamos tratando específicamente de generalizar a nuevos casos no vistos a partir de observaciones específicas, lo que se conoce como razonamiento inductivo.

Si la Navaja de Occam sugiere que los modelos más complejos no se generalizan bien, entonces en el aprendizaje aplicado de la máquina, sugiere que deberíamos elegir modelos más simples ya que tendrán menos errores de predicción en los nuevos datos.

Si esto es cierto, entonces ¿cómo podemos justificar el uso de un algoritmo de aprendizaje en conjunto?

Por definición, los algoritmos de aprendizaje de máquinas en conjunto son más complejos que un modelo de aprendizaje de una sola máquina, ya que están compuestos por muchos modelos de aprendizaje de máquinas individuales.

La navaja de Occam sugiere que la complejidad añadida de los algoritmos de aprendizaje en conjunto significa que no se generalizarán tanto como los modelos más simples encajan en el mismo conjunto de datos.

Sin embargo, los algoritmos de aprendizaje en conjunto de las máquinas son la solución dominante cuando la habilidad de predicción sobre nuevos datos es la preocupación más importante, como en las competiciones de aprendizaje de las máquinas. Los conjuntos han sido estudiados en gran medida y se ha demostrado que no se ajustan al conjunto de datos de entrenamiento en un estudio tras otro.

Se ha observado empíricamente que ciertas técnicas de ensamblaje a menudo no se ajustan al modelo, incluso cuando el conjunto contiene miles de clasificadores.

– Página 40, Clasificación de patrones usando métodos de ensamblaje, 2010.

¿Cómo se puede conciliar esta inconsistencia?

Las dos navajas de Occam para el aprendizaje automático

El conflicto entre la expectativa de que los modelos más simples se generalizaran mejor en la teoría y los modelos complejos como los conjuntos que se generalizaran mejor en la práctica fue en su mayor parte ignorado como un hallazgo empírico inconveniente durante mucho tiempo.

A finales de los años 90, el problema fue estudiado específicamente por Pedro Domingos y publicado en el premiado artículo de 1996 titulado «Las dos navajas de Occam»: The Sharp and the Blunt», y el artículo de seguimiento de 1999 «El papel de la navaja de Occam en el descubrimiento del conocimiento».

En la obra, Domingos define el problema como dos implicaciones específicas comúnmente afirmadas de la Navaja de Occam en el aprendizaje aplicado de la máquina, a las que se refiere como «Las dos navajas de Occam» en el aprendizaje automático, son (sacados del papel):

Primera navaja de afeitar: Dados dos modelos con el mismo error de generalización, se debe preferir el más simple porque la simplicidad es deseable en sí misma.
Segunda navaja: Dados dos modelos con el mismo error de conjunto de entrenamiento, se debe preferir el más simple porque es probable que tenga un menor error de generalización.

Domingos luego enumera un vasto número de ejemplos a favor y en contra de cada navaja de afeitar tanto de la teoría como de los estudios empíricos en el aprendizaje de las máquinas.

El primera navaja sugiere que si dos modelos tienen el mismo rendimiento esperado sobre datos no vistos durante el entrenamiento, deberíamos preferir el modelo más simple. Domingos destaca que esta navaja tiene y proporciona una buena heurística en proyectos de aprendizaje de máquinas.

El segunda navaja sugiere que si dos modelos tienen el mismo rendimiento en un conjunto de datos de entrenamiento, entonces se debe elegir el modelo más simple porque se espera que se generalice mejor cuando se utilice para hacer predicciones sobre nuevos datos.

Esto parece sensato en la superficie.

Es el argumento que subyace a la no adopción de algoritmos de conjunto en un proyecto de aprendizaje de máquinas porque son muy complejos en comparación con otros modelos y se espera que no se generalicen.

Resulta que esta navaja no puede ser soportada por la evidencia de la literatura de aprendizaje de la máquina.

Todas estas pruebas apuntan a la conclusión de que no sólo la segunda navaja no es verdadera en general, sino que también es típicamente falsa en los tipos de dominios a los que se ha aplicado KDD.

– Las Dos Navajas de Occam: The Sharp and the Blunt, 1998.

El aprendizaje de la navaja y el conjunto de Occam

El hallazgo comienza a sonar intuitivo una vez que lo meditas por un tiempo.

Por ejemplo, en la práctica, no elegiríamos un modelo de aprendizaje de máquina basado en su rendimiento en el conjunto de datos de entrenamiento solamente. Intuitivamente, o quizás después de mucha experiencia, esperamos tácitamente que la estimación del rendimiento en un conjunto de entrenamiento sea una mala estimación del rendimiento en un conjunto de datos de retención.

Tenemos esta expectativa porque el modelo puede superar el conjunto de datos de entrenamiento.

Sin embargo, de forma menos intuitiva, el sobreajuste del conjunto de datos de entrenamiento puede conducir a un mejor rendimiento en un conjunto de pruebas de retención. Esto se ha observado muchas veces en la práctica en estudios sistemáticos.

Una situación común consiste en trazar el rendimiento de un modelo en el conjunto de datos de entrenamiento y un conjunto de datos de prueba de retención en cada iteración de aprendizaje para el modelo, como las épocas de entrenamiento o las iteraciones para los modelos que apoyan el aprendizaje incremental.

Si el aprendizaje en el conjunto de datos de entrenamiento se establece para continuar durante un gran número de iteraciones de entrenamiento y las curvas observadas, a menudo se puede ver que el rendimiento en el conjunto de datos de entrenamiento caerá a un error cero. Esto es de esperar, ya que podríamos pensar que el modelo se ajustará más al conjunto de datos de entrenamiento si se le dan suficientes recursos y tiempo para entrenar. Sin embargo, el rendimiento en el conjunto de pruebas seguirá mejorando, incluso mientras el rendimiento en el conjunto de entrenamiento permanezca fijo en un error cero.

… ocasionalmente, el error de generalización continuaría mejorando mucho después de que el error de entrenamiento hubiera llegado a cero.

– Página 40, Ensemble Methods in Data Mining, 2010.

Este comportamiento puede observarse con algoritmos de aprendizaje de conjuntos como el de refuerzo y el de embolsado, en los que el rendimiento en el conjunto de datos de retención seguirá mejorando a medida que se añadan más miembros modelo al conjunto.

Un hallazgo muy sorprendente es que realizar más iteraciones de impulso puede reducir el error en los nuevos datos mucho después de que el error de clasificación del clasificador combinado en los datos de entrenamiento haya caído a cero.

– Página 489, Minería de datos: Herramientas y técnicas prácticas de aprendizaje de máquinas, 2016.

Es decir, la complejidad del modelo aumenta progresivamente, lo que disminuye sistemáticamente el error en los datos no vistos, por ejemplo, el error de generalización. La capacitación adicional no puede mejorar el rendimiento en el conjunto de datos de capacitación; no tiene ninguna mejora posible.

Realizar más iteraciones de impulso sin reducir el error de entrenamiento no explica mejor los datos de entrenamiento, y ciertamente añade complejidad al clasificador combinado.

– Página 490, Minería de datos: Herramientas y técnicas prácticas de aprendizaje de máquinas, 2016.

Este hallazgo contradice directamente la segunda navaja y apoya el argumento de Domingos sobre el abandono de la segunda navaja.

El primero es en gran parte incontrovertible, mientras que el segundo, tomado literalmente, es falso.

– Las Dos Navajas de Occam: The Sharp and the Blunt, 1998.

Este problema ha sido estudiado y puede explicarse en general por el hecho de que los algoritmos de conjunto están aprendiendo a tener más confianza en sus predicciones sobre el conjunto de datos de entrenamiento, que se trasladan a los datos de retención.

La contradicción puede resolverse considerando la confianza del clasificador en sus predicciones.

– Página 490, Minería de datos: Herramientas y técnicas prácticas de aprendizaje de máquinas, 2016.

La primera navaja sigue siendo una importante heurística en el aprendizaje aplicado de las máquinas.

El aspecto clave de esta navaja es el predicado de «todo lo demás siendo igual.” Es decir, si se comparan dos modelos, deben compararse utilizando su error de generalización en un conjunto de datos de reserva o estimarse utilizando una validación cruzada de pliegue k. Si su rendimiento es igual en estas circunstancias, entonces la navaja puede entrar en vigor y podemos elegir la solución más simple.

Esta no es la única manera de elegir modelos.

Podemos elegir un modelo más simple porque es más fácil de interpretar, y esto sigue siendo válido si la interpretabilidad del modelo es un requisito de proyecto más importante que la capacidad de predicción.

Los algoritmos de aprendizaje en conjunto son inequívocamente un tipo de modelo más complejo cuando el número de parámetros del modelo se considera la medida de la complejidad. Como tal, un problema abierto en el aprendizaje en conjunto implica medidas alternativas de complejidad.

Más lecturas

Esta sección proporciona más recursos sobre el tema si desea profundizar en él.

Tutoriales relacionados

Documentos

Libros

Artículos

Resumen

En este tutorial, descubriste cómo reconciliar la Navaja de Occam con el aprendizaje de la máquina de ensamblaje.

Específicamente, aprendiste:

La navaja de Occam es una heurística que sugiere elegir modelos de aprendizaje de máquinas más simples, ya que se espera que se generalicen mejor.
La heurística puede dividirse en dos navajas, una de las cuales es verdadera y sigue siendo una herramienta útil, y la otra que es falsa y debe ser abandonada.
Los algoritmos de aprendizaje en conjunto, como el boosting, proporcionan un caso específico de cómo falla la segunda navaja y la complejidad añadida puede resultar en un menor error de generalización.

¿Tiene alguna pregunta?
Haga sus preguntas en los comentarios de abajo y haré lo posible por responder.