Saltar al contenido

La sobrecarga de datos es algo real

15 de noviembre de 2022

En 1996, formé parte de un “panel de gurús” en el primer TDWI (Instituto de almacenamiento de datos) en Washington, DC. También en el panel estaban Bill Inmon y Herb Edelstein. En la sesión de preguntas y respuestas de la audiencia, alguien tenía el micrófono y planteó esta pregunta al panel: “¿Los hombres que dirigen estas empresas [she did say men] ¿Necesitan todos estos datos, o pueden simplemente ejecutarlos por instinto?»

Me sorprendió la pregunta. Esta fue una conferencia de almacenamiento de datos, y los almacenes de datos en ese momento eran las bases de datos más extensas de la empresa: en promedio, unos pocos cientos de gigabytes.

Alan Paller, el moderador, tomó el micrófono y comenzó a caminar hacia mí. Me decía a mí mismo: «Por favor, no me des el micrófono». No sabía cómo responder a la pregunta sin ofender al que preguntaba. En el último segundo, se volvió y le entregó el micrófono a Herb. Respiré un suspiro de alivio. Herb tomó el micrófono, dejó escapar un gran suspiro y dijo: “Déjame decirte cómo hacer una empresa de cien millones de dólares. Comience con una empresa de mil millones de dólares y ejecútela con intuición”.

¿Quién tenía razón? La pregunta es aún más válida hoy que hace veinticinco años. Desde entonces, la cantidad de datos capturados y almacenados se ha disparado. Las tácticas de análisis de big data, ciencia de datos e inteligencia artificial, en particular el aprendizaje automático, requieren fundamentalmente grandes cantidades de datos.

  • Estamos inundados de datos. Alrededor 2,5 quintillones de bytes valor de los datos se genera cada día. Actualmente hay más 60 zettabytes de datos en todo el universo digital.
  • La industria de Big Data ha experimentado un tremendo crecimiento en solo unos pocos años. Se disparó de $ 169 mil millones en 2018 a $ 274 mil millones en 2022, un aumento del 62%.
  • Estados Unidos tiene una cuota de mercado del 51% en Big Data and Analytics Solutions (IDC)
  • En 2018, la cantidad total de datos creados, capturados, copiados y consumidos en todo el mundo fue de 33 zettabytes (ZB), el equivalente a 33 billones de gigabytes. Esto creció a 59ZB en 2020 y se prevé que alcance la asombrosa cifra de 175ZB para 2025. Un zettabyte es Un billón de gigas. Son muchos datos.
  • 80-90% de todos los datos digitales no están estructurados (CIO). Esto es particularmente interesante porque el costo de cómputo de convertir imágenes, video y audio a datos digitalizados para cómputo excede el costo de ejecutar los modelos.
  • ¿Todos estos datos ayudan a comprender la causalidad?
Recomendado:  Cómo desarrollar modelos de regresión de cresta en Python

¿La emergencia causal invierte el sesgo de los datos brutos más profundos?

Un artículo en New Scientist, Un replanteamiento de la causa y el efecto podría ayudar cuando las cosas se complican, comienza con: “Algunos científicos insisten en que la causa de todas las cosas existe en el nivel más fundamental, incluso en sistemas tan complejos como el cerebro y las personas. ¿Y si no es así?

Identificar qué causa qué en los sistemas complejos es el objetivo de gran parte de la ciencia. Nuestro punto de vista actual para cualquier tipo de experimento es el principio de reduccionismo. Aunque hemos logrado un progreso fantástico al dividir las cosas en componentes más pequeños, este enfoque «reduccionista» tiene límites. Ahora, algunos investigadores sugieren que deberíamos alejarnos y mirar el panorama general. Habiendo creado una nueva forma de medir la causalidad, afirman que, en muchos casos, las causas de las cosas se encuentran en los niveles más gruesos de un sistema.

Es una idea controvertida que los elementos de causalidad aparezcan, no a nivel micro, sino a un nivel superior que es más comprensible (y computable). Por ejemplo, suponga que la causalidad puede ocurrir en un modelo de aprendizaje automático de 100 000 registros en lugar de 500 millones. Si son correctos, esto creará controversia sobre si se deben guardar cantidades tan grandes de datos sin procesar.

¿Qué es la emergencia causal?

al igual que la pregunta de 1996, ¿está la respuesta en los datos en algún nivel superior? La explicación alternativa es que la causa real de los eventos que estudiamos se revela solo en un nivel superior. Esta idea se llama emergencia causal. Desafía la intuición detrás del reduccionismo y la suposición de que una causa no puede aparecer simplemente en una escala a menos que sea inherente a micro causas en escalas más finas.

Recomendado:  NIT Patna invita solicitudes para pasantías en línea sobre aprendizaje automático

El trabajo original sobre la emergencia causal fue realizado por los neurocientíficos Erik Hoel de la Universidad de Tufts en Massachusetts y Renzo Comolatti de la Universidad de Milán en Italia. Demuestran que existe la emergencia causal y cómo podemos identificarla y usarla. “Queremos que la causalidad deje de ser una cuestión filosófica y se convierta en una cuestión científica aplicada”, dice Hoel.

En 2013, Hoel, en colaboración con Albantakis y su colega neurocientífico Giulio Tononi, también de la Universidad de Wisconsin-Madison, presentó una nueva forma de hacer esto, utilizando una medida llamada información efectiva. Esto se basa en la fuerza con la que un escenario restringe las causas pasadas. que podría haberlo producido y las limitaciones sobre los posibles efectos futuros.

Su trabajo tiene sus críticos. Judea Pearl, científica informática de la Universidad de California, Los Ángeles, dice que los intentos de «medir la causalidad en el lenguaje de las probabilidades» están desactualizados. Pero Hoel dice que las medidas de causalidad que consideran también incluyen estructuras tipo Pearl.

Mi toma

Todo esto pone nerviosa a la gente sobre el tema del libre albedrío. ¿Somos libres de tomar decisiones como esa de todos modos, o están predeterminadas? Un argumento común en contra de la existencia del libre albedrío es que los átomos interactúan de acuerdo con leyes físicas rígidas, por lo que el comportamiento general al que dan lugar no puede ser más que el resultado determinista de todas sus interacciones.

Sí, la mecánica cuántica crea cierta aleatoriedad en esas interacciones, pero si es aleatoria, no puede estar involucrada en el libre albedrío. Sin embargo, con la emergencia causal, las verdaderas causas del comportamiento se derivan de grados más altos de organización, como la forma en que las neuronas están conectadas, los estados de nuestro cerebro, la historia pasada, etc. Eso significa que podemos decir significativamente que nuestros cerebros y mentes son la verdadera causa de nuestro comportamiento

Recomendado:  Cómo entrenar al conjunto de pruebas en el aprendizaje automático

Es interesante pensar en ello, pero el objetivo de este artículo no era ni la filosofía ni la neurociencia. Planteó la cuestión de que si la emergencia causal es una alternativa viable al reduccionismo, tal vez sea una respuesta a la pregunta de 1996: «¿Por qué necesitamos todos estos datos?»