Las 10 ideas principales en estadísticas que han impulsado la revolución de la inteligencia artificial

Si alguna vez pidió ayuda a Siri o Alexa, o generó un autorretrato al estilo de un pintor del Renacimiento, ha interactuado con el aprendizaje profundo, una forma de inteligencia artificial que extrae patrones de montañas de datos para hacer predicciones. Aunque el aprendizaje profundo y la inteligencia artificial se han convertido en términos familiares, los avances en las estadísticas que han impulsado esta revolución son menos conocidos. En un artículo reciente, Andrew Gelman, profesor de estadística en Columbia, y Aki Vehtari, profesor de informática en la Universidad Aalto de Finlandia, publicaron una lista de las ideas estadísticas más importantes de los últimos 50 años.

A continuación, Gelman y Vehtari desglosan la lista de aquellos que pueden haber pospuesto Estadísticas 101. Cada idea puede verse como un sustituto de un subcampo completo, dicen, con algunas advertencias: la ciencia es incremental; Al señalar estas obras, no se pretende restar importancia a trabajos similares relacionados. También han optado por centrarse en métodos de estadística y aprendizaje automático, en lugar de avances igualmente importantes en computación estadística, informática e ingeniería, que han proporcionado las herramientas y la potencia informática para que el análisis y la visualización de datos se conviertan en herramientas prácticas cotidianas. Por último, se han centrado en los métodos, aunque reconocen que los avances en la teoría y los métodos suelen estar motivados por aplicaciones específicas.

¿Ves algo importante que falta? Envíelo por Twitter a @columbiascience y Gelman y Vehtari considerarán agregarlo a la lista.

Los 10 artículos y libros que aparecen a continuación se publicaron en los últimos 50 años y se enumeran en orden cronológico.


Recomendado: ¿Qué es el Big data?.


1. Hirotugu Akaike (1973). Teoría de la información y una extensión del principio de máxima verosimilitud. Actas del Segundo Simposio Internacional sobre Teoría de la Información.

Este es el artículo que introdujo el término AIC (originalmente llamado An Information Criterion pero ahora conocido como Akaike Information Criterion), para evaluar el ajuste de un modelo en función de su precisión predictiva estimada. AIC se reconoció instantáneamente como una herramienta útil, y este artículo fue uno de los varios publicados a mediados de la década de 1970 que colocaban la inferencia estadística dentro de un marco predictivo. Ahora reconocemos la validación predictiva como un principio fundamental en estadística y aprendizaje automático. Akaike fue un estadístico aplicado que, en la década de 1960, intentó medir la rugosidad de las pistas de los aeropuertos, de la misma manera que los primeros trabajos de Benoit Mandelbrot sobre taxonomía y distribuciones de Pareto llevaron a su trabajo posterior sobre las matemáticas de los fractales.

2. John Tukey (1977). Análisis exploratorio de datos.

Este libro ha tenido una gran influencia y es una lectura divertida que se puede digerir de una sola vez. Tradicionalmente, la visualización y exploración de datos se consideraban aspectos de bajo nivel de la estadística práctica; el atractivo consistía en ajustar modelos, probar teoremas y desarrollar las propiedades teóricas de los procedimientos estadísticos bajo diversas suposiciones o restricciones matemáticas. Tukey le dio la vuelta a esta idea. Escribió sobre herramientas estadísticas no para confirmar lo que ya sabíamos (o pensamos que sabíamos), y no para rechazar hipótesis que nunca, o nunca deberíamos haber creído, sino para descubrir nuevas e inesperadas ideas a partir de los datos. Su trabajo motivó avances en análisis de redes, software y perspectivas teóricas que integran confirmación, crítica y descubrimiento.

3. Grace Wahba (1978). A priori incorrectos, suavizado de splines y el problema de protegerse contra los errores del modelo en la regresión. Revista de la Royal Statistical Society.

El suavizado de splines es un método para ajustar curvas no paramétricas. Otro de los artículos de Wahba de este período se llama “Una curva francesa automática”, refiriéndose a una clase de algoritmos que pueden ajustar curvas suaves arbitrarias a través de datos sin sobreajuste al ruido o valores atípicos. La idea puede parecer obvia ahora, pero fue un gran paso adelante en una era en la que los puntos de partida para el ajuste de curvas eran polinomios, exponenciales y otras formas fijas. Además de la aplicabilidad directa de las splines, este artículo era teóricamente importante. Sirvió como base para el trabajo posterior en inferencia bayesiana no paramétrica al unificar ideas de regularización de modelos de alta dimensión.

4. Bradley Efron (1979). Métodos Bootstrap: otra mirada al Jackknife. Annals of Statistics.

Bootstrapping es un método para realizar inferencias estadísticas sin suposiciones. Los datos se recuperan por sí mismos, por así decirlo. Pero no se puede hacer inferencia sin suposiciones; Lo que hizo que el bootstrap fuera tan útil e influyente es que las suposiciones vinieron implícitamente con el procedimiento computacional: la idea audazmente simple de remuestrear los datos. Cada vez que repita el procedimiento estadístico realizado sobre los datos originales. Al igual que con muchos métodos estadísticos de los últimos 50 años, este se volvió muy útil debido a una explosión en la potencia de cálculo que permitió que las simulaciones reemplazaran al análisis matemático.

5. Alan Gelfand y Adrian Smith (1990). Enfoques basados ​​en muestreo para calcular las densidades marginales. Revista de la Asociación Estadounidense de Estadística.

Otra forma en que la computación rápida ha revolucionado las estadísticas y el aprendizaje automático es a través de modelos bayesianos abiertos. Los modelos estadísticos tradicionales son estáticos: ajuste la distribución A a los datos de tipo B. Pero el modelado estadístico moderno tiene una calidad más de Tinkertoy que le permite resolver los problemas de manera flexible a medida que surgen al llamar a bibliotecas de distribuciones y transformaciones. Solo necesitamos herramientas computacionales para ajustar estos modelos encajados. En su influyente artículo, Gelfand y Smith no desarrollaron ninguna herramienta nueva; demostraron cómo se podía utilizar el muestreo de Gibbs para ajustar una gran clase de modelos estadísticos. En las últimas décadas, el muestreador de Gibbs ha sido reemplazado por el Hamiltoniano Monte Carlo, el filtrado de partículas, el Bayes variacional y algoritmos más elaborados, pero el principio general de la construcción de modelos modulares se ha mantenido.

6. Guido Imbens y Joshua Angrist (1994). Identificación y estimación de los efectos del tratamiento promedio local. Econometrica.

La inferencia causal es fundamental para cualquier problema en el que la pregunta no sea solo una descripción (¿cómo han ido las cosas?) O una predicción (¿qué pasará después?), Sino un contrafactual (si hacemos X, ¿qué pasaría con Y?) . Los métodos causales han evolucionado con el resto de las estadísticas y el aprendizaje automático a través de la exploración, el modelado y la computación. Pero el razonamiento causal tiene el desafío adicional de preguntar sobre datos que son imposibles de medir (no se puede hacer X y no X a la misma persona). Como resultado, una idea clave en este campo es identificar qué preguntas se pueden responder de manera confiable a partir de un experimento determinado. Imbens y Angrist son economistas que escribieron un artículo influyente sobre lo que se puede estimar cuando los efectos causales varían, y sus ideas forman la base de gran parte del trabajo posterior sobre este tema.

7. Robert Tibshirani (1996). Contracción de regresión y selección a través del lazo. Revista de la Royal Statistical Society.

En la regresión, o en la predicción de una variable de resultado a partir de un conjunto de entradas o características, el desafío radica en incluir muchas entradas junto con sus interacciones; el problema de estimación resultante se vuelve estadísticamente inestable debido a las muchas formas diferentes de combinar estas entradas para obtener predicciones razonables. Las estimaciones clásicas de mínimos cuadrados o de máxima verosimilitud serán ruidosas y es posible que no funcionen bien en datos futuros, por lo que se han desarrollado varios métodos para restringir o “regularizar” el ajuste para ganar estabilidad. En este artículo, Tibshirani presentó el lazo, un enfoque de regularización computacionalmente eficiente y ahora ampliamente utilizado, que se ha convertido en una plantilla para la regularización basada en datos en modelos más complicados.

8. Leland Wilkinson (1999). La gramática de los gráficos.

En este libro, Wilkinson, un estadístico que ha trabajado en varios proyectos de software comercial influyentes, incluidos SPSS y Tableau, establece un marco para gráficos estadísticos que va más allá del enfoque habitual en gráficos circulares versus histogramas, cómo dibujar un diagrama de dispersión y tinta de datos y chartjunk, para explorar de forma abstracta cómo se relacionan los datos y las visualizaciones. Este trabajo ha influido en las estadísticas a través de muchas vías, sobre todo a través de ggplot2 y la familia de paquetes tidyverse en el lenguaje informático R. Es un paso importante hacia la integración de datos exploratorios y análisis de modelos en el flujo de trabajo de la ciencia de datos.

9. Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville y Yoshua Bengio (2014). Redes generativas antagónicas. Actas de la Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural.

Uno de los asombrosos logros del aprendizaje automático en los últimos años es la toma de decisiones en tiempo real a través de predicciones e inferencias. Entre los ejemplos famosos se incluyen los coches autónomos y AlphaGo de DeepMind, que se entrenó para convertirse en el mejor jugador de Go de la Tierra. Las redes adversarias generalizadas, o GAN, son un avance conceptual que permiten resolver automáticamente los problemas de aprendizaje por refuerzo. Marcan un paso hacia el objetivo de larga data de la inteligencia artificial general al mismo tiempo que aprovechan el poder del procesamiento paralelo para que un programa pueda entrenarse jugando millones de juegos contra sí mismo. A nivel conceptual, las GAN vinculan la predicción con modelos generativos.

10. Yoshua Bengio, Yann LeCun y Geoffrey Hinton (2015). Aprendizaje profundo. Naturaleza.

El aprendizaje profundo es una clase de modelos de redes neuronales artificiales que se pueden utilizar para realizar predicciones no lineales flexibles utilizando una gran cantidad de funciones. Sus componentes básicos (regresión logística, estructura multinivel e inferencia bayesiana) no son nada nuevos. Lo que hace que esta línea de investigación sea tan influyente es el reconocimiento de que estos modelos pueden ajustarse para resolver una variedad de problemas de predicción, desde el comportamiento del consumidor hasta el análisis de imágenes. Al igual que con otros desarrollos en estadística y aprendizaje automático, el proceso de ajuste fue posible solo con el advenimiento de la computación paralela rápida y los algoritmos estadísticos para aprovechar este poder para adaptarse a modelos grandes en tiempo real. Conceptualmente, todavía nos estamos poniendo al día con el poder de estos métodos, razón por la cual existe tanto interés en el aprendizaje automático interpretable.