Este artículo forma parte de «AI education», una serie de artículos que revisan y exploran el contenido educativo de la ciencia de los datos y el aprendizaje automático. (En asociación con Paperspace)
El aprendizaje de las máquinas y el aprendizaje profundo se han convertido en una parte importante de muchas aplicaciones que usamos a diario. Hay pocos dominios que la rápida expansión del aprendizaje automático no ha tocado. Muchas empresas han prosperado desarrollando la estrategia correcta para integrar los algoritmos de aprendizaje automático en sus operaciones y procesos. Otros han perdido terreno frente a sus competidores después de ignorar los innegables avances de la inteligencia artificial.
Pero dominar el aprendizaje de la máquina es un proceso difícil. Necesitas empezar con un sólido conocimiento del álgebra lineal y el cálculo, dominar un lenguaje de programación como Python, y llegar a dominar la ciencia de los datos y las bibliotecas de aprendizaje de máquinas como Numpy, Scikit-learn, TensorFlow y PyTorch.
Y si quieres crear sistemas de aprendizaje automático que se integren y escalen, tendrás que aprender plataformas de nube como Amazon AWS, Microsoft Azure y Google Cloud.
Naturalmente, no todo el mundo necesita convertirse en un ingeniero de aprendizaje de máquinas. Pero casi todos los que dirigen una empresa u organización que recopila y procesa sistemáticamente pueden beneficiarse de algún conocimiento de la ciencia de los datos y del aprendizaje automático. Afortunadamente, hay varios cursos que proporcionan una visión general de alto nivel sobre el aprendizaje automático y el aprendizaje profundo sin profundizar demasiado en las matemáticas y la codificación.
Pero en mi experiencia, una buena comprensión de la ciencia de los datos y el aprendizaje de las máquinas requiere cierta experiencia práctica con los algoritmos. En este sentido, una herramienta muy valiosa y a menudo pasada por alto es Microsoft Excel.
Para la mayoría de la gente, MS Excel es una aplicación de hoja de cálculo que almacena datos en formato tabular y realiza operaciones matemáticas muy básicas. Pero en realidad, Excel es una poderosa herramienta de cálculo que puede resolver problemas complicados. Excel también tiene muchas características que le permiten crear modelos de aprendizaje automático directamente en sus libros de trabajo.
Aunque he estado usando las herramientas matemáticas de Excel durante años, no llegué a apreciar su uso para aprender y aplicar la ciencia de los datos y el aprendizaje de las máquinas hasta que aprendí Aprenda a extraer datos a través de Excel: Un enfoque paso a paso para entender los métodos de aprendizaje automático por Hong Zhou.
Aprenda la minería de datos a través de Excel te lleva a través de los fundamentos del aprendizaje de la máquina paso a paso y muestra cómo puedes implementar muchos algoritmos usando las funciones básicas de Excel y algunas de las herramientas avanzadas de la aplicación.
Aunque Excel no reemplazará de ninguna manera el aprendizaje de las máquinas en Python, es una gran ventana para aprender lo básico de la IA y resolver muchos problemas básicos sin escribir una línea de código.
Aprendizaje de máquina de regresión lineal con Excel
La regresión lineal es un simple algoritmo de aprendizaje de máquina que tiene muchos usos para analizar datos y predecir resultados. La regresión lineal es especialmente útil cuando los datos están ordenados de forma clara en formato tabular. Excel tiene varias características que le permiten crear modelos de regresión a partir de datos tabulares en sus hojas de cálculo.
Una de las más intuitivas es la herramienta de gráficos de datos, que es una poderosa característica de visualización de datos. Por ejemplo, el gráfico de dispersión muestra los valores de sus datos en un plano cartesiano. Pero además de mostrar la distribución de sus datos, la herramienta de gráficos de Excel puede crear un modelo de aprendizaje automático que puede predecir los cambios en los valores de sus datos. La función, llamada Trendline, crea un modelo de regresión a partir de tus datos. Puede establecer la línea de tendencia en uno de varios algoritmos de regresión, incluyendo lineal, polinómica, logarítmica y exponencial. También puede configurar el gráfico para que muestre los parámetros de su modelo de aprendizaje automático, que puede utilizar para predecir el resultado de nuevas observaciones.
Puedes añadir varias líneas de tendencia al mismo gráfico. Esto hace que sea fácil probar y comparar rápidamente el rendimiento de los diferentes modelos de aprendizaje de la máquina en sus datos.
Además de explorar la herramienta de gráficos, Aprenda la minería de datos a través de Excel te lleva a través de varios otros procedimientos que pueden ayudar a desarrollar modelos de regresión más avanzados. Estos incluyen fórmulas como las fórmulas LINEST y LINREG, que calculan los parámetros de los modelos de aprendizaje de la máquina en base a los datos de su entrenamiento.
El autor también te lleva a través de la creación paso a paso de modelos de regresión lineal utilizando las fórmulas básicas de Excel como SUM y SUMPRODUCT. Este es un tema recurrente en el libro: Verás la fórmula matemática de un modelo de aprendizaje de una máquina, aprenderás el razonamiento básico que hay detrás de ella y la crearás paso a paso combinando valores y fórmulas en varias celdas y matrices de celdas.
Aunque esta podría no ser la forma más eficiente de hacer el trabajo de ciencia de datos a nivel de producción, es ciertamente una muy buena forma de aprender el funcionamiento de los algoritmos de aprendizaje de las máquinas.
Otros algoritmos de aprendizaje de máquinas con Excel
Más allá de los modelos de regresión, puedes usar Excel para otros algoritmos de aprendizaje automático. Aprenda la minería de datos a través de Excel proporciona una rica lista de algoritmos de aprendizaje de máquinas supervisados y no supervisados, incluyendo agrupación de k-medios, vecino más cercano, clasificación ingenua de Bayes y árboles de decisión.
El proceso puede ser un poco enrevesado a veces, pero si te mantienes en el camino, la lógica caerá fácilmente en su lugar. Por ejemplo, en el capítulo de agrupación de k-means, podrás usar una amplia gama de fórmulas y características de Excel (INDEX, IF, AVERAGEIF, ADDRESS y muchas otras) en varias hojas de trabajo para calcular los centros de agrupación y refinarlos. Esta no es una manera muy eficiente de hacer clusters, usted será capaz de rastrear y estudiar sus clusters a medida que se refinancian en cada hoja consecutiva. Desde un punto de vista educativo, la experiencia es muy diferente a los libros de programación donde usted proporciona una función de biblioteca de aprendizaje de la máquina sus puntos de datos y da salida a los clústeres y sus propiedades.
En el capítulo del árbol de decisión, pasarás por el proceso de cálculo de la entropía y la selección de características para cada rama de tu modelo de aprendizaje de la máquina. Una vez más, el proceso es lento y manual, pero ver bajo el capó del algoritmo de aprendizaje de la máquina es una experiencia gratificante.
En muchos de los capítulos del libro, usarás la herramienta de resolución para minimizar tu función de pérdida. Aquí es donde verás los límites de Excel, porque incluso un simple modelo con una docena de parámetros puede ralentizar tu ordenador hasta que se arrastre, especialmente si tu muestra de datos tiene varios cientos de filas. Pero el Solver es una herramienta especialmente poderosa cuando quieres afinar los parámetros de tu modelo de aprendizaje de la máquina.
Aprendizaje profundo y procesamiento de lenguaje natural con Excel
Aprenda la minería de datos a través de Excel muestra que Excel puede incluso avanzados algoritmos de aprendizaje de máquinas. Hay un capítulo que profundiza en la creación meticulosa de modelos de aprendizaje profundo. Primero, creará una red neural artificial de una sola capa con menos de una docena de parámetros. Luego ampliarás el concepto para crear un modelo de aprendizaje profundo con capas ocultas. El cálculo es muy lento e ineficiente, pero funciona, y los componentes son los mismos: valores de las células, fórmulas y la poderosa herramienta Solver.
En el último capítulo, creará una aplicación rudimentaria de procesamiento de lenguaje natural (PNL), utilizando Excel para crear un modelo de aprendizaje de máquina de análisis de sentimientos. Usará fórmulas para crear un modelo de «bolsa de palabras», preprocesará y clasificará las críticas de los hoteles en función de la densidad de palabras clave positivas y negativas. En el proceso aprenderás bastante sobre cómo la IA contemporánea trata el lenguaje y cuán diferente es de cómo nosotros los humanos procesamos el lenguaje escrito y hablado.
Excel como una herramienta de aprendizaje de la máquina
Ya sea que esté tomando decisiones de nivel C en su empresa, trabajando en recursos humanos o administrando cadenas de suministro e instalaciones de fabricación, un conocimiento básico de aprendizaje de máquinas será importante si trabajará con científicos de datos y gente de IA. Del mismo modo, si eres un reportero que cubre noticias sobre la IA o una agencia de relaciones públicas que trabaja en nombre de una empresa que utiliza el aprendizaje automático, escribir sobre la tecnología sin saber cómo funciona es una mala idea (escribiré un artículo aparte sobre los muchos horribles lanzamientos de IA que recibo cada día). En mi opinión, Aprenda la minería de datos a través de Excel es una lectura fluida y rápida que le ayudará a obtener ese importante conocimiento.
Más allá de aprender lo básico, Excel puede ser una poderosa adición a su repertorio de herramientas de aprendizaje de máquinas. Aunque no es bueno para tratar grandes conjuntos de datos y algoritmos complicados, puede ayudar con la visualización y el análisis de lotes de datos más pequeños. Los resultados que se obtengan de una rápida extracción de Excel pueden proporcionar información pertinente para elegir la dirección correcta y el algoritmo de aprendizaje automático para abordar el problema en cuestión.