8 libros principales sobre limpieza de datos e ingeniería de características

La preparación de datos es la transformación de los datos en bruto en una forma más apropiada para el modelado.

Es un tema difícil de discutir ya que los datos difieren en forma, tipo y estructura de un proyecto a otro.

No obstante, hay tareas comunes de preparación de datos en todos los proyectos. Es un campo de estudio enorme y se conoce con muchos nombres, como «limpieza de datos,” “la discusión de datos,” “preprocesamiento de datos,” “ingeniería de características…y más. Algunas de ellas son tareas de preparación de datos distintas, y algunos de los términos se utilizan para describir todo el proceso de preparación de datos.

A pesar de que es un tema difícil de discutir, hay varios libros sobre el tema.

En este post, descubrirá los principales libros sobre limpieza de datos, preparación de datos, ingeniería de características y temas relacionados.

Empecemos.

Descubre la limpieza de datos, la selección de características, la transformación de datos, la reducción de la dimensionalidad y mucho más en mi nuevo libro, con 30 tutoriales paso a paso y el código fuente completo en Python.

Visión general

El enfoque aquí es la preparación de datos para datos tabulares, por ejemplo, datos en forma de tabla con filas y columnas como se ve en una hoja de cálculo de Excel.

La preparación de datos es un tema importante para todos los tipos de datos, aunque para cada uno de ellos se requieren métodos especializados, como los datos de imágenes en la visión por computadora, los datos de texto en el procesamiento del lenguaje natural y los datos de secuencia en el pronóstico de series temporales.

La preparación de datos suele ser un capítulo de un libro de texto de aprendizaje de máquinas, aunque hay libros dedicados al tema. Nos centraremos en estos libros.

He reunido todos los libros que puedo encontrar sobre el tema de la preparación de datos, he seleccionado los que creo que son los mejores o mejores libros, y los he organizado en tres grupos; son:

Limpieza de datos

La disputa de los datos
Ingeniería de características

Trataré de dar el sabor de cada libro, incluyendo el objetivo, la tabla de contenidos y dónde aprender más sobre él.

¿Quieres empezar a preparar los datos?

Toma mi curso intensivo gratuito de 7 días por correo electrónico ahora (con código de muestra).

Haga clic para inscribirse y también para obtener una versión gratuita del curso en formato PDF.

Limpieza de datos

La limpieza de datos se refiere a la identificación y corrección de errores en los datos antes del modelado, incluyendo, pero no limitado a, valores atípicos, valores perdidos y mucho más.

Los principales libros sobre limpieza de datos incluyen:

Veamos más de cerca a cada uno por separado.

«Manual de datos erróneos»

El libro «Bad Data Handbook»: Limpiando los datos para que puedas volver al trabajo» fue editado por Q. Ethan Mccallum y fue publicado en 2012.

Los datos malos se describen no sólo como datos corruptos sino como cualquier dato que perjudique el proceso de modelación.

Es difícil de precisar una definición exacta de «Datos Malos». Algunas personas lo consideran un fenómeno puramente práctico y técnico: valores perdidos, registros malformados y formatos de archivo irritantes. Claro, eso es parte del cuadro, pero los malos datos son mucho más. […] Los datos malos son los que se interponen en el camino.

– Página 1, «Manual de datos erróneos»: Limpiar los datos para que puedas volver al trabajo», 2012.

Es una colección de ensayos de 19 profesionales del aprendizaje automático y nosotros llena de pepitas útiles sobre la preparación y gestión de datos.

Manual de datos erróneos

El índice completo del libro es el siguiente.

Capítulo 01: Marcando el ritmo: ¿Qué son los malos datos?
Capítulo 02: ¿Soy sólo yo, o estos datos huelen raro?
Capítulo 03: Datos destinados al consumo humano, no al consumo de las máquinas

Capítulo 04: Malos datos al acecho en texto plano
Capítulo 05: (Re)Organizando los datos de la web
Capítulo 06: Detectando a los mentirosos y a los confundidos en las revisiones contradictorias en línea

Capítulo 07: ¿Se levantarán los malos datos por favor?
Capítulo 08: Sangre, sudor y orina
Capítulo 09: Cuando los datos y la realidad no coinciden

Capítulo 10: Fuentes sutiles de sesgo y error
Capítulo 11: No dejes que lo perfecto sea el enemigo de lo bueno: ¿Los datos malos son realmente malos?
Capítulo 12: Cuando las bases de datos atacan: Una guía para cuando se pegue a los archivos

Capítulo 13: Mesa en cuclillas, red oculta
Capítulo 14: Mitos de la computación en nube
Capítulo 15: El lado oscuro de la ciencia de los datos

Capítulo 16: Cómo alimentar y cuidar a su experto en aprendizaje de máquinas
Capítulo 17: Trazabilidad de los datos
Capítulo 18: Medios Sociales: ¿Tinta borrable?

Capítulo 19: Análisis de la calidad de los datos desmitificados: Saber cuando sus datos son lo suficientemente buenos

Me gusta mucho este libro; está lleno de valiosos consejos prácticos. ¡Lo recomiendo encarecidamente!

Aprende más:

«Mejores prácticas en la limpieza de datos»

El libro «Best Practices in Data Cleaning»: A Complete Guide to Everything You Need to Do Before and After Collecting Your Data» fue escrito por Jason Osborne y fue publicado en 2012.

Este es un libro de texto más general sobre la preparación de datos para las ciencias sociales basadas en la computación, más que el aprendizaje automático específicamente. Sin embargo, contiene un montón de consejos útiles.

Mi objetivo al escribir este libro es recoger, en un solo lugar, una visión general sistemática de lo que considero las mejores prácticas en la limpieza de datos -cosas que puedo demostrar que marcan la diferencia en sus análisis de datos. Busco cambiar el status quo, el estado actual de la investigación cuantitativa en las ciencias sociales (y más allá).

– Página 2, «Mejores prácticas en la limpieza de datos»: Una guía completa de todo lo que necesita hacer antes y después de recoger sus datos», 2012.

Mejores prácticas en la limpieza de datos

El índice completo del libro es el siguiente.

Capítulo 01: Por qué es importante la limpieza de datos: Destruir el mito de la robustez
Capítulo 02: Poder y planificación para la recolección de datos: Destruir el mito del poder adecuado
Capítulo 03: Ser fiel a la población objetivo: Desacreditar el mito de la representatividad

Capítulo 04: Uso de grandes conjuntos de datos con marcos de muestreo probabilístico: Destruir el mito de la igualdad
Capítulo 05: Análisis de sus datos para detectar problemas potenciales: Destruir el mito de los datos perfectos
Capítulo 06: Lidiar con datos incompletos o perdidos: Destruir el mito del vacío

Capítulo 07: Puntos de datos extremos e influyentes: Destruir el mito de la igualdad
Capítulo 08: Mejorar la normalidad de las variables mediante la transformación de Box-Cox: Desacreditar el mito de la irrelevancia distributiva
Capítulo 09: ¿Importa la fiabilidad? Destruyendo el mito de la medición perfecta

Capítulo 10: Respuesta aleatoria, mala respuesta motivada y conjuntos de respuesta: Destruir el mito del participante motivado
Capítulo 11: Por qué dicotomizar las variables continuas es raramente una buena práctica: Desacreditar el mito de la categorización
Capítulo 12: El reto especial de limpiar los datos de medidas repetidas: Muchos pozos en los que caer

Capítulo 13: Ahora que los mitos son desacreditados..: Visiones de la metodología cuantitativa racional para el siglo XXI

Creo que es una gran guía de referencia para las técnicas de preparación de datos generales, quizás con una mejor cobertura que la mayoría de los libros centrados en el «aprendizaje automático», dado el mayor enfoque estadístico.

Aprende más:

«Limpieza de datos»

El libro «Limpieza de datos» fue escrito por Ihab Ilyas y Xu Chu, y publicado en 2019.

Como su nombre indica, el libro se centra en técnicas de limpieza de datos que corrigen los errores en los datos en bruto antes del modelado.

La limpieza de datos se utiliza para referirse a todo tipo de tareas y actividades para detectar y reparar errores en los datos. En lugar de centrarnos en una tarea particular de limpieza de datos, en este libro, damos una visión general del proceso de limpieza de datos de extremo a extremo, describiendo varios métodos de detección y reparación de errores, e intentamos anclar estas propuestas con múltiples taxonomías y puntos de vista.

– Página ixx, «Limpieza de datos», 2019.

Limpieza de datos

El índice completo del libro es el siguiente.

Capítulo 01: Introducción
Capítulo 02: Detección de valores atípicos
Capítulo 03: Deduplicación de datos

Capítulo 04: Transformación de datos
Capítulo 05: Definición y descubrimiento de la regla de calidad de los datos
Capítulo 06: Limpieza de datos basada en reglas

Capítulo 07: Aprendizaje por máquina y limpieza de datos probabilísticos
Capítulo 08: Conclusión y pensamientos futuros

Es más un libro de texto que un libro práctico y es una buena opción para los académicos e investigadores que buscan tanto una revisión de los métodos como referencias a los trabajos de investigación originales.

Aprende más:

La disputa de los datos

La discusión de datos es un término más general o coloquial para la preparación de datos que podría incluir alguna limpieza de datos e ingeniería de características.

Los principales libros sobre la lucha por los datos incluyen:

Veamos más de cerca a cada uno por separado.

«Data Wrangling with Python»

El libro «Data Wrangling with Python: Tips and Tools to Make Your Life Easier» fue escrito por Jacqueline Kazil y Katharine Jarmul y fue publicado en 2016.

El enfoque de este libro son las herramientas y métodos para ayudar a obtener datos en bruto en un formulario listo para el modelado.

La discusión de datos se trata de tomar una fuente de datos desordenada o no refinada y convertirla en algo útil.

– Página xii, «Data Wrangling with Python: Consejos y herramientas para hacer tu vida más fácil», 2016.

Este es un libro para principiantes para aquellos que dan sus primeros pasos en Python para la preparación de datos y el modelado, por ejemplo, los actuales usuarios de Excel.

Este libro es para la gente que quiere explorar los datos más allá de las herramientas de escritorio. Si eres bueno en Excel y quieres llevar tu análisis de datos al siguiente nivel, ¡este libro te ayudará!

– Página xii, «Data Wrangling with Python: Consejos y herramientas para hacer tu vida más fácil», 2016.

Datos en conflicto con Python

El índice completo del libro es el siguiente.

Capítulo 01: Introducción a la pitón
Capítulo 02: Fundamentos de la pitón
Capítulo 03: Datos que deben ser leídos por las máquinas

Capítulo 04: Trabajar con archivos de Excel
Capítulo 05: PDFs y solución de problemas en Python
Capítulo 06: Adquisición y almacenamiento de datos

Capítulo 07: Limpieza de datos: Investigación, Coincidencia y Formato
Capítulo 08: Limpieza de datos: Estandarización y Scripting
Capítulo 09: Exploración y análisis de datos

Capítulo 10: Presentación de sus datos
Capítulo 11: Raspado de la red: Adquisición y almacenamiento de datos de la web
Capítulo 12: Raspado Avanzado de la Web: Raspadores de pantalla y arañas

Capítulo 13: API
Capítulo 14: Automatización y escalado
Capítulo 15: Conclusión

Este es el libro que hay que conseguir si acabas de empezar con Python para la carga y organización de datos.

Aprende más:

«Principios de la Disputa de Datos»

El libro «Principles of Data Wrangling: Practical Techniques for Data Preparation» fue escrito por Tye Rattenbury, et al. y fue publicado en 2017.

La discusión de datos se utiliza para describir todas las tareas relacionadas con la preparación de datos para el modelado.

La frase «Data Wrangling», nacida en el contexto moderno de la analítica ágil, tiene como objetivo describir la mayor parte del tiempo que la gente pasa trabajando con datos.

– Página ix, «Principios de la Disputa de Datos»: Técnicas prácticas para la preparación de datos», 2017.

Principios de la Disputa de Datos

El índice completo del libro es el siguiente.

Capítulo 01: Introducción

Capítulo 02: Un marco de flujo de trabajo de datos
Capítulo 03: La dinámica de la disputa de datos
Capítulo 04: Perfiles

Capítulo 05: Transformación: Estructuración
Capítulo 06: Transformación: Enriquecer
Capítulo 07: Usar la transformación para limpiar los datos

Capítulo 08: Roles y responsabilidades
Capítulo 09: Herramientas para la discusión de datos

Es un buen libro, pero de muy alto nivel. Tal vez sea más adecuado para el gerente que para el practicante. Por ejemplo, no creo que haya visto una sola línea de código.

Aprende más:

«Data Wrangling with R»

El libro «Data Wrangling with R» fue escrito por Bradley Boehmke y fue publicado en 2016.

Como su nombre indica, este libro se centra en la preparación de datos con R.

En este libro, le ayudaré a aprender lo esencial del preprocesamiento de datos aprovechando el lenguaje de programación R para convertir fácil y rápidamente los datos ruidosos en piezas de información utilizables.

– Página v, Data Wrangling con R, 2016.

Este es un libro práctico. Tiene muchos capítulos pequeños y enfocados con ejemplos de códigos sobre problemas específicos que se encontrarán durante la preparación de los datos. Es un cambio bienvenido comparado con muchos de los otros libros de alto nivel de este resumen.

Los datos que se discuten con R

El índice completo del libro es el siguiente.

Capítulo 01: El papel de la disputa de datos

Capítulo 02: Introducción a R
Capítulo 03: Lo básico
Capítulo 04: Lidiando con los números

Capítulo 05: Lidiando con las cuerdas de los personajes
Capítulo 06: Lidiando con las expresiones regulares
Capítulo 07: Lidiando con los factores

Capítulo 08: Lidiando con las fechas
Capítulo 09: Fundamentos de la estructura de datos
Capítulo 10: Manejo de Vectores

Capítulo 11: Manejo de listas
Capítulo 12: Manejo de matrices
Capítulo 13: Manejo de los marcos de datos

Capítulo 14: Lidiar con los valores perdidos
Capítulo 15: Importación de datos
Capítulo 16: Raspado de datos

Capítulo 17: Exportación de datos
Capítulo 18: Funciones
Capítulo 19: Declaraciones de control de bucle

Capítulo 20: Simplifique su código con %>%
Capítulo 21: Remodelación de sus datos con tidyr
Capítulo 22: Transformando sus datos con dplyr

Soy un fan de este libro, y si estás usando R, necesitas una copia. Una desventaja es que hay demasiado de lo básico de la R en este libro. Prefiero que estos sean dejados de lado y que el lector sea dirigido a un libro de introducción a la R, levantando un poco los requerimientos al lector.

Aprende más:

Ingeniería de características

La ingeniería de características se refiere a la creación de nuevas variables de entrada a partir de datos en bruto, aunque también se refiere a la preparación de datos de manera más general.

Los mejores libros de ingeniería incluyen:

Veamos más de cerca a cada uno por separado.

«Ingeniería y selección de características»

El libro «Ingeniería y selección de características»: A Practical Approach for Predictive Models» fue escrito por Max Kuhn y Kjell Johnson y fue publicado en 2019.

Este libro describe el proceso general de preparación de los datos en bruto para el modelado como ingeniería de características.

El ajuste y la reelaboración de los predictores para permitir que los modelos descubran mejor las relaciones entre predictor y respuesta se ha denominado ingeniería de características.

– Página xi, «Ingeniería y selección de características»: Un enfoque práctico para los modelos de predicción», 2019.

Los ejemplos del libro se demuestran usando la R, lo cual es importante, ya que el autor Max Kuhn es también creador del popular paquete de caretas.

Una perspectiva importante que se adopta en el libro es que la preparación de los datos no se limita a cumplir las expectativas de los algoritmos de modelización; se requiere para exponer mejor la estructura subyacente del problema, lo que exige un ensayo y error iterativo. Esta es la misma perspectiva que tomo en general y es refrescante ver en un libro moderno.

…a menudo no sabemos cuál es la mejor representación de los predictores para mejorar el rendimiento del modelo. En cambio, la reelaboración de los predictores es más bien un arte, que requiere las herramientas adecuadas y la experiencia para encontrar mejores representaciones de los predictores. Además, es posible que necesitemos buscar muchas representaciones alternativas de los predictores para mejorar el rendimiento del modelo.

– Página xii, «Ingeniería y selección de características»: Un enfoque práctico para los modelos de predicción», 2019.

Ingeniería y selección de características

El índice completo del libro es el siguiente.

Capítulo 1. Introducción
Capítulo 2. Ejemplo ilustrativo: Predicción del riesgo de accidente cerebrovascular isquémico
Capítulo 3. Una revisión del proceso de modelación predictiva
Capítulo 4. Visualizaciones exploratorias
Capítulo 5. Codificación de predictores categóricos
Capítulo 6. Predicciones numéricas de ingeniería
Capítulo 7. Detección de los efectos de la interacción
Capítulo 8. Manejo de los datos que faltan
Capítulo 9. Trabajar con datos de perfil
Capítulo 10. Visión general de la selección de características
Capítulo 11. Métodos de búsqueda codiciosos
Capítulo 12. Métodos de búsqueda global

Creo que este es un libro imprescindible, aunque la R no sea su idioma primario. La amplitud de los métodos discutidos vale el precio de la etiqueta.

Aprende más:

«Ingeniería de características para el aprendizaje de la máquina»

El libro «Ingeniería de Características para el Aprendizaje de las Máquinas»: Principles and Techniques for Data Scientists» fue escrito por Alice Zheng y Amanda Casari y fue publicado en 2018.

Creo que este libro tiene las definiciones más directas por delante de todos los libros que he visto, describiendo una característica como una entrada numérica a un modelo y la ingeniería de características sobre la obtención de características numéricas útiles a partir de los datos en bruto. ¡Muy nítido!

Una característica es una representación numérica de un aspecto de los datos en bruto. Los rasgos se sitúan entre los datos y los modelos en la línea de aprendizaje de la máquina. La ingeniería de las características es el acto de extraer características de los datos en bruto y transformarlas en formatos adecuados para el modelo de aprendizaje de la máquina.

– Página vii, «Ingeniería de características para el aprendizaje de la máquina: Principios y técnicas para los científicos de datos», 2018.

Los ejemplos están en Python y se centran en el uso de NumPy y Pandas, y hay muchos ejemplos trabajados, que son geniales. Creo que este es un buen libro hermano o equivalente en Python al anterior «Data Wrangling with R«o»Ingeniería y selección de característicasaunque tal vez con menos cobertura.

Ingeniería de características para el aprendizaje de la máquina

El índice completo del libro es el siguiente.

Capítulo 1: Tubería de aprendizaje de la máquina
Capítulo 2: Trucos de fantasía con números sencillos
Capítulo 3: Datos de texto: Aplanar, filtrar y fragmentar
Capítulo 4: Los efectos de la escalada de características: De la bolsa de palabras a Tf-Idf
Capítulo 5: Variables categóricas: Contar huevos en la era de los pollos robóticos
Capítulo 6: Reducción de la dimensionalidad: Aplastando el panqueque de datos con PCA
Capítulo 7: Featurización no lineal a través del apilamiento de modelos K-Means
Capítulo 8: Automatización del Featurizer: Extracción de características de la imagen y aprendizaje profundo
Capítulo 9: Regreso al futuro: Construyendo un recomendador de trabajos académicos
Apéndice A: Modelado lineal y fundamentos del álgebra lineal

Me gusta el libro.

Supongo que preferiría dejar las matemáticas y dirigir al lector a un libro de texto. También preferiría que los ejemplos se centraran en la tubería de modelado del aprendizaje de la máquina en lugar de las transformaciones independientes. Pero estoy siendo quisquilloso y presionando mucho para obtener un código directamente útil en un proyecto dado.

Aprende más:

Recomendaciones

Tienes que elegir el libro que sea adecuado para ti, basado en tus necesidades, por ejemplo, código o libro de texto, Python o R.

Soy el dueño de todos estos libros, pero los dos que recomiendo son:

La razón es que me gustan los libros prácticos y me gustan las perspectivas de la R y la Pitón cuando estoy pensando en qué probar.

Un seguimiento cercano sería:

El primero es super práctico; el segundo está lleno de consejos super útiles (pero super específicos).