Cómo desarrollar modelos de regresión de cresta en Python

La regresión es una tarea de modelización que implica la predicción de un valor numérico dado una entrada.

La regresión lineal es el algoritmo estándar para la regresión que asume una relación lineal entre las entradas y la variable objetivo. Una extensión de la regresión lineal invoca la adición de penalizaciones a la función de pérdida durante el entrenamiento que fomenta modelos más simples que tienen valores de coeficientes más pequeños. Estas extensiones se denominan regresión lineal regularizada o regresión lineal penalizada.

Regresión de la cresta es un tipo popular de regresión lineal regularizada que incluye una penalización de L2. Esto tiene el efecto de reducir los coeficientes para aquellas variables de entrada que no contribuyen mucho a la tarea de predicción.

En este tutorial, descubrirá cómo desarrollar y evaluar los modelos de regresión de la cresta en Python.

Después de completar este tutorial, lo sabrás:

La regresión de cresta es una extensión de la regresión lineal que añade una penalización de regularización a la función de pérdida durante el entrenamiento.

Cómo evaluar un modelo de regresión de la cresta y usar un modelo final para hacer predicciones para nuevos datos.
Cómo configurar el modelo de regresión de la cresta para un nuevo conjunto de datos a través de la búsqueda de la cuadrícula y de forma automática.

Empecemos.

Cómo desarrollar modelos de regresión de cresta en Python
Foto de Susanne Nilsson, algunos derechos reservados.

Resumen del Tutorial

Este tutorial está dividido en tres partes; son:

Regresión de la cresta

Ejemplo de regresión de la cresta
Hiperparámetros de Tuning Ridge

Regresión de la cresta

La regresión lineal se refiere a un modelo que asume una relación lineal entre las variables de entrada y la variable objetivo.

Con una sola variable de entrada, esta relación es una línea, y con dimensiones más altas, esta relación puede ser pensada como un hiperplano que conecta las variables de entrada con la variable objetivo. Los coeficientes del modelo se encuentran a través de un proceso de optimización que busca minimizar el error de suma al cuadrado entre las predicciones (yhat) y los valores objetivo esperados (y).

pérdida = suma i=0 a n (y_i – yhat_i)^2

Un problema con la regresión lineal es que los coeficientes estimados del modelo pueden llegar a ser grandes, lo que hace que el modelo sea sensible a las entradas y posiblemente inestable. Esto es particularmente cierto para los problemas con pocas observaciones (muestras) o más muestras (n) que los predictores de entrada (p) o variables (las llamadas p >> n problemas).

Un enfoque para abordar la estabilidad de los modelos de regresión es cambiar la función de pérdida para incluir los costos adicionales de un modelo que tiene grandes coeficientes. Los modelos de regresión lineal que utilizan estas funciones de pérdida modificadas durante la formación se denominan colectivamente regresión lineal penalizada.

Una penalización popular es penalizar un modelo basado en la suma de los valores de los coeficientes cuadrados (beta). Esto se llama una penalización L2.

l2_penalty = suma j=0 a p beta_j^2

Una penalización de L2 minimiza el tamaño de todos los coeficientes, aunque impide que se eliminen del modelo los coeficientes al permitir que su valor sea cero.

El efecto de esta penalización es que sólo se permite que las estimaciones de los parámetros se vuelvan grandes si hay una reducción proporcional en la ESS. En efecto, este método encoge las estimaciones hacia 0 a medida que la penalización lambda se hace grande (estas técnicas se denominan a veces «métodos de encogimiento»).

– Página 123, Applied Predictive Modeling, 2013.

Esta penalización puede añadirse a la función de costo de la regresión lineal y se denomina regularización de Tikhonov (según el autor) o regresión de cresta en general.

Se utiliza un hiperparámetro llamado «lambda«que controla la ponderación de la pena a la función de pérdida. Un valor por defecto de 1.0 ponderará completamente la penalización; un valor de 0 excluye la penalización. Los valores muy pequeños de lambda, como 1e-3 o más pequeños son comunes.

ridge_loss = pérdida + (lambda * l2_penalty)

Ahora que estamos familiarizados con la regresión penalizada de Ridge, veamos un ejemplo trabajado.

Ejemplo de regresión de la cresta

En esta sección, demostraremos cómo usar el algoritmo de Regresión de la Cresta.

Primero, introduzcamos un conjunto de datos de regresión estándar. Usaremos el conjunto de datos de la vivienda.

El conjunto de datos de la carcasa es un conjunto de datos estándar de aprendizaje de la máquina que comprende 506 filas de datos con 13 variables numéricas de entrada y una variable numérica de destino.

Utilizando un arnés de pruebas de validación cruzada estratificada 10 veces con tres repeticiones, un modelo ingenuo puede lograr un error medio absoluto (MAE) de alrededor de 6,6. Un modelo de alto rendimiento puede lograr un MAE en este mismo arnés de prueba de alrededor de 1,9. Esto proporciona los límites del rendimiento esperado en este conjunto de datos.

El conjunto de datos implica la predicción del precio de la casa, dados los detalles del suburbio de la casa en la ciudad americana de Boston.

No es necesario descargar el conjunto de datos; lo descargaremos automáticamente como parte de nuestros ejemplos de trabajo.

El siguiente ejemplo descarga y carga el conjunto de datos como un Pandas DataFrame y resume la forma del conjunto de datos y las cinco primeras filas de datos.

<div id="ezoic-pub-ad-placeholder-720" data-inserter-version="2"></div> # Cargar y resumir el conjunto de datos de la vivienda de la importación de pandas read_csv de matplotlib import pyplot # Cargar conjunto de datos url=»https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.csv» dataframe = read_csv(url, header=None) # Resumir la forma imprimir(dataframe.shape) # Resumir las primeras líneas print(dataframe.head())

# Cargar y resumir el conjunto de datos de la vivienda

de pandas importación read_csv

de matplotlib importación pyplot

# Cargar conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.csv’

dataframe = read_csv(url, encabezado=Ninguno)

# Resumir la forma

imprimir(dataframe.forma)

# Resumir las primeras líneas

imprimir(dataframe.cabeza())

La ejecución del ejemplo confirma las 506 filas de datos y 13 variables de entrada y una única variable objetivo numérica (14 en total). También podemos ver que todas las variables de entrada son numéricas.

(506, 14) 0 1 2 3 4 5 … 8 9 10 11 12 13 0 0.00632 18.0 2.31 0 0.538 6.575 … 1 296.0 15.3 396.90 4.98 24.0 1 0.02731 0.0 7.07 0 0.469 6.421 … 2 242.0 17.8 396.90 9.14 21.6 2 0.02729 0.0 7.07 0 0.469 7.185 … 2 242.0 17.8 392.83 4.03 34.7 3 0.03237 0.0 2.18 0 0.458 6.998 … 3 222.0 18.7 394.63 2.94 33.4 4 0.06905 0.0 2.18 0 0.458 7.147 … 3 222.0 18.7 396.90 5.33 36.2<div id="ezoic-pub-ad-placeholder-722" data-inserter-version="2"></div> [5 rows x 14 columns]

(506, 14)

0 1 2 3 4 5 … 8 9 10 11 12 13

0 0.00632 18.0 2.31 0 0.538 6.575 … 1 296.0 15.3 396.90 4.98 24.0

1 0.02731 0.0 7.07 0 0.469 6.421 … 2 242.0 17.8 396.90 9.14 21.6

2 0.02729 0.0 7.07 0 0.469 7.185 … 2 242.0 17.8 392.83 4.03 34.7

3 0.03237 0.0 2.18 0 0.458 6.998 … 3 222.0 18.7 394.63 2.94 33.4

4 0.06905 0.0 2.18 0 0.458 7.147 … 3 222.0 18.7 396.90 5.33 36.2

[5 rows x 14 columns]

La biblioteca de aprendizaje de la máquina Python de scikit-learn proporciona una implementación del algoritmo de Regresión Ridge a través de la clase Ridge.

Confusamente, el término lambda puede ser configurado a través de la «alfa«argumento» al definir la clase. El valor por defecto es 1.0 o una penalización completa.

… # Definir el modelo modelo = Ridge(alpha=1.0)<div id="ezoic-pub-ad-placeholder-724" data-inserter-version="2"></div>

...

# Definir el modelo

modelo = Ridge(alfa=1.0)

Podemos evaluar el modelo de Regresión de la Cresta en el conjunto de datos de la vivienda utilizando una validación cruzada repetida 10 veces e informar del error medio absoluto (MAE) en el conjunto de datos.

# Evaluar un modelo de regresión de la cresta en el conjunto de datos de la importación numérica significa de numpy import std de la importación numérica absoluta de la importación de pandas read_csv de sklearn.model_selection import cross_val_score de sklearn.model_selection import RepeatedKFold de sklearn.linear_model import Ridge # Cargar el conjunto de datos url=»https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.csv» dataframe = read_csv(url, header=None) data = dataframe.values X, y = datos[:, :-1]…datos…[:, -1] # Definir el modelo modelo = Ridge(alpha=1.0) # Definir el método de evaluación del modelo cv = RepetidoKFold(n_splits=10, n_repeticiones=3, estado_aleatorio=1) # Evaluar el modelo puntuación = cross_val_score(modelo, X, y, puntuación=’neg_media_absoluta_error’, cv=cv, n_jobs=-1) # forzar las puntuaciones a ser positivas puntuaciones = absoluto (puntuaciones) print(‘Mean MAE: %.3f (%.3f)’ % (mean(scores), std(scores))

# Evaluar un modelo de regresión de la cresta en el conjunto de datos

de numpy importación significa

de numpy importación std

de numpy importación absoluto

de pandas importación read_csv

de sklearn.model_selection importación puntaje_valor_cruzado

de sklearn.model_selection importación RepetidoKFold

de sklearn.modelo_lineal importación Ridge

# Cargar el conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.csv’

dataframe = read_csv(url, encabezado=Ninguno)

datos = dataframe.valores

X, y = datos[[:, :–1], datos[[:, –1]

# Definir el modelo

modelo = Ridge(alfa=1.0)

# Definir el método de evaluación del modelo

cv = RepetidoKFold(n_splits=10, n_repeticiones=3, estado_aleatorio=1)

# Evaluar el modelo

resultados = puntaje_valor_cruzado(modelo, X, y, puntuación=‘neg_mean_absolute_error’, cv=cv, n_jobs=–1)

# forzar las puntuaciones a ser positivas

resultados = absoluto(resultados)

imprimir(«Promedio MAE: %.3f (%.3f) % (significa(resultados), std(resultados)))

La ejecución del ejemplo evalúa el algoritmo de regresión de la cresta en el conjunto de datos de la vivienda y reporta el promedio de MAE a través de las tres repeticiones de validación cruzada de 10 veces.

Sus resultados específicos pueden variar dada la naturaleza estocástica del algoritmo de aprendizaje. Considere ejecutar el ejemplo unas cuantas veces.

En este caso, podemos ver que el modelo alcanzó un MAE de alrededor de 3.382.

Podemos decidir usar la Regresión de la Cresta como nuestro modelo final y hacer predicciones sobre nuevos datos.

Esto puede lograrse ajustando el modelo a todos los datos disponibles y llamando al predecir() pasando en una nueva fila de datos.

Podemos demostrarlo con un ejemplo completo que se enumera a continuación.

# Hacer una predicción con un modelo de regresión de cresta en el conjunto de datos de la importación de pandas read_csv de sklearn.linear_model import Ridge # Cargar el conjunto de datos url=»https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.csv» dataframe = read_csv(url, header=None) data = dataframe.values X, y = datos[:, :-1]…datos…[:, -1] # Definir el modelo modelo = Ridge(alpha=1.0) # Modelo de ajuste model.fit(X, y) # Definir nuevos datos fila = [0.00632,18.00,2.310,0,0.5380,6.5750,65.20,4.0900,1,296.0,15.30,396.90,4.98] # hacer una predicción yhat = model.predict([row]) # resumir la predicción print(‘Predicho: %.3f’ % yhat)

# Hacer una predicción con un modelo de regresión de cresta en el conjunto de datos

de pandas importación read_csv

de sklearn.modelo_lineal importación Ridge

# Cargar el conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.csv’

dataframe = read_csv(url, encabezado=Ninguno)

datos = dataframe.valores

X, y = datos[[:, :–1], datos[[:, –1]

# Definir el modelo

modelo = Ridge(alfa=1.0)

# Modelo de ajuste

modelo.encajar(X, y)

# Definir nuevos datos

fila = [[0.00632,18.00,2.310,0,0.5380,6.5750,65.20,4.0900,1,296.0,15.30,396.90,4.98]

# hacer una predicción

yhat = modelo.predecir([[fila])

# resumir la predicción

imprimir(«Predicho: %.3f % yhat)

Ejecutando el ejemplo se ajusta al modelo y hace una predicción para las nuevas filas de datos.

A continuación, podemos ver la configuración de los hiperparámetros del modelo.

Hiperparámetros de Tuning Ridge

¿Cómo sabemos que los hiperparámetros por defecto de alfa=1.0 es apropiado para nuestro conjunto de datos?

No lo hacemos.

En su lugar, es una buena práctica probar un conjunto de diferentes configuraciones y descubrir qué es lo que mejor funciona para nuestro conjunto de datos.

Un enfoque sería la búsqueda en cuadrícula alfa valores de quizás 1e-5 a 100 en una escala de logaritmo y descubrir qué es lo que mejor funciona para un conjunto de datos. Otro enfoque sería probar valores entre 0,0 y 1,0 con una separación de cuadrícula de 0,01. Intentaremos lo último en este caso.

El siguiente ejemplo lo demuestra utilizando la clase GridSearchCV con una cuadrícula de valores que hemos definido.

# Búsqueda de cuadrícula hiperparámetros para la regresión de la cresta de numpy import arange de la importación de pandas read_csv de sklearn.model_selection import GridSearchCV de sklearn.model_selection import RepeatedKFold de sklearn.linear_model import Ridge # Cargar el conjunto de datos url=»https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.csv» dataframe = read_csv(url, header=None) data = dataframe.values X, y = datos[:, :-1]…datos…[:, -1] # Definir el modelo modelo = Ridge() # Definir el método de evaluación del modelo cv = RepetidoKFold(n_splits=10, n_repeticiones=3, estado_aleatorio=1) # Definir la cuadrícula cuadrícula = dict() cuadrícula[‘alpha’] = [1e-5, 1e-4, 1e-3, 1e-2, 1e-1, 0.0, 1.0, 10.0, 100.0] # Definir la búsqueda search = GridSearchCV(modelo, cuadrícula, puntuación=’neg_mean_absolute_error’, cv=cv, n_jobs=-1) # realizar la búsqueda resultados = search.fit(X, y) # Resumir print(‘MAE: %.3f’ % results.best_score_) print(‘Config: %s’ % results.best_params_)<div id="ezoic-pub-ad-placeholder-734" data-inserter-version="2"></div>

# Búsqueda de cuadrícula hiperparámetros para la regresión de la cresta

de numpy importación arange

de pandas importación read_csv

de sklearn.model_selection importación GridSearchCV

de sklearn.model_selection importación RepetidoKFold

de sklearn.modelo_lineal importación Ridge

# Cargar el conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.csv’

dataframe = read_csv(url, encabezado=Ninguno)

datos = dataframe.valores

X, y = datos[[:, :–1], datos[[:, –1]

# Definir el modelo

modelo = Ridge()

# Definir el método de evaluación del modelo

cv = RepetidoKFold(n_splits=10, n_repeticiones=3, estado_aleatorio=1)

# Definir la cuadrícula

cuadrícula = dict()

cuadrícula[[«alfa] = [[1e–5, 1e–4, 1e–3, 1e–2, 1e–1, 0.0, 1.0, 10.0, 100.0]

# Definir la búsqueda

busca en = GridSearchCV(modelo, cuadrícula, puntuación=‘neg_mean_absolute_error’, cv=cv, n_jobs=–1)

# realizar la búsqueda

resultados = busca en.encajar(X, y)

# Resumir

imprimir(MAE: %.3f % resultados.mejor_puntuación_)

imprimir(Config: %s’ % resultados.best_params_)

Al ejecutar el ejemplo se evaluará cada combinación de configuraciones utilizando una validación cruzada repetida.

Sus resultados específicos pueden variar dada la naturaleza estocástica del algoritmo de aprendizaje. Intente ejecutar el ejemplo unas cuantas veces.

En este caso, podemos ver que obtuvimos resultados ligeramente mejores que los 3.379 contra 3.382 del predeterminado. Ignore el signo; la biblioteca hace que el MAE sea negativo para fines de optimización.

Podemos ver que el modelo asignó un alfa peso de 0,51 a la pena.

MAE: -3.379 Config: {‘alpha’: 0.51}

MAE: -3.379

Config: {‘alpha’: 0.51}

La biblioteca scikit-learn también proporciona una versión incorporada del algoritmo que encuentra automáticamente buenos hiperparámetros a través de la clase RidgeCV.

Para usar esta clase, se ajusta al conjunto de datos de entrenamiento y se usa para hacer una predicción. Durante el proceso de entrenamiento, automáticamente ajusta los valores de los hiperparámetros.

Por defecto, el modelo sólo probará el alfa valores (0,1, 1,0, 10,0). Podemos cambiar esto a una cuadrícula de valores entre 0 y 1 con una separación de 0,01 como hicimos en el ejemplo anterior, estableciendo el «alphas«argumento».

El siguiente ejemplo lo demuestra.

<div id="ezoic-pub-ad-placeholder-739" data-inserter-version="2"></div> # Usar el algoritmo de regresión de cresta configurado automáticamente de numpy import arange de la importación de pandas read_csv de sklearn.linear_model import RidgeCV de sklearn.model_selection import RepeatedKFold # Cargar el conjunto de datos url=»https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.csv» dataframe = read_csv(url, header=None) data = dataframe.values X, y = datos[:, :-1]…datos…[:, -1] # Definir el método de evaluación del modelo cv = RepetidoKFold(n_splits=10, n_repeticiones=3, estado_aleatorio=1) # Definir el modelo modelo = RidgeCV(alphas=rango(0, 1, 0.01), cv=cv, puntuación=’neg_media_absoluta_error’) # Modelo de ajuste model.fit(X, y) # resumir la configuración elegida print(‘alpha: %f’ % model.alpha_)

# Usar el algoritmo de regresión de cresta configurado automáticamente

de numpy importación arange

de pandas importación read_csv

de sklearn.modelo_lineal importación RidgeCV

de sklearn.model_selection importación RepetidoKFold

# Cargar el conjunto de datos

url = ‘https://raw.githubusercontent.com/jbrownlee/Datasets/master/housing.csv’

dataframe = read_csv(url, encabezado=Ninguno)

datos = dataframe.valores

X, y = datos[[:, :–1], datos[[:, –1]

# Definir el método de evaluación del modelo

cv = RepetidoKFold(n_splits=10, n_repeticiones=3, estado_aleatorio=1)

# Definir el modelo

modelo = RidgeCV(alphas=arange(0, 1, 0.01), cv=cv, puntuación=‘neg_mean_absolute_error’)

# Modelo de ajuste

modelo.encajar(X, y)

# resumir la configuración elegida

imprimir(«alfa: %f % modelo.alfa_)

Ejecutando el ejemplo se ajusta al modelo y descubre los hiperparámetros que dan los mejores resultados usando la validación cruzada.

Sus resultados específicos pueden variar dada la naturaleza estocástica del algoritmo de aprendizaje. Intente ejecutar el ejemplo unas cuantas veces.

En este caso, podemos ver que el modelo eligió el hiperparámetro idéntico de alfa=0,51 que encontramos a través de nuestra búsqueda manual en la red.

Más lecturas

Esta sección proporciona más recursos sobre el tema si desea profundizar en él.

Libros

APIs

Artículos

Resumen

En este tutorial, descubriste cómo desarrollar y evaluar los modelos de Regresión de Cumbrera en Python.

Específicamente, aprendiste:

La regresión de cresta es una extensión de la regresión lineal que añade una penalización de regularización a la función de pérdida durante el entrenamiento.
Cómo evaluar un modelo de regresión de la cresta y usar un modelo final para hacer predicciones para nuevos datos.

Cómo configurar el modelo de regresión de la cresta para un nuevo conjunto de datos a través de la búsqueda de la cuadrícula y de forma automática.

¿Tiene alguna pregunta?
Haga sus preguntas en los comentarios de abajo y haré lo posible por responder.

Descubre el aprendizaje rápido de la máquina en Python!

Desarrolle sus propios modelos en minutos

…con sólo unas pocas líneas de código de aprendizaje científico…

Aprende cómo en mi nuevo Ebook:
Dominio de la máquina de aprendizaje con la pitón

Cubre Tutoriales de auto-estudio y proyectos integrales como:
Cargando datos, visualización, modelado, tuningy mucho más…

Finalmente traer el aprendizaje automático a
Sus propios proyectos

Sáltese los académicos. Sólo los resultados.

Ver lo que hay dentro

Resumen del Tutorial

Regresión de la cresta

Ejemplo de regresión de la cresta

Hiperparámetros de Tuning Ridge

Más lecturas

Libros

APIs

Artículos

Resumen

Descubre el aprendizaje rápido de la máquina en Python!

Desarrolle sus propios modelos en minutos

Finalmente traer el aprendizaje automático a Sus propios proyectos

Finalmente traer el aprendizaje automático a
Sus propios proyectos