Saltar al contenido

Cómo las Feature Stores revolucionarán la IA empresarial

29 de diciembre de 2020

Gartner predice que el 85 por ciento de los proyectos de IA no funcionarán como se esperaba hasta el 2022. Lo que significa que de cada 20 proyectos lanzados en los próximos dos años, solo 3 tendrán éxito y los 17 restantes fallarán. ¿Por qué? Porque crear un modelo de aprendizaje automático y operarlo en un entorno empresarial son dos cosas muy diferentes. El mayor desafío para las empresas que implementan IA es operacionalizando aprendizaje automático en el mundo real, razón por la cual MLOps está creciendo tan rápidamente.

Las tiendas de características son una nueva tecnología MLOps que están adoptando empresas de vanguardia como Uber, Airbnb y Netflix, y por una buena razón. UN Tienda de características es un sistema creado específicamente para automatizar la entrada, el seguimiento y la gobernanza de los datos en modelos de aprendizaje automático. Las tiendas de características calculan y almacenan características, lo que permite registrarlas, descubrirlas, usarlas y compartirlas en una empresa. Proporcionar un marco centralizado y reproducible para administrar los modelos de aprendizaje automático de alimentación de datos tiene una variedad de beneficios para la IA empresarial.

Mejore la productividad de la ciencia de datos

->

->

Los científicos de datos son pocos y distantes entre sí, y no son baratos. Mejorar la productividad de la ciencia de datos al eliminar el trabajo repetitivo e innecesario significa que puede producir más modelos en menos tiempo con su personal actual.

En un silo típico de ciencia de datos, los científicos de datos dedican el 80% de su tiempo a preparación de datos, y solo el 20% restante se gasta realmente en implementar el modelo de aprendizaje automático. El trabajo de preparación de datos es manual, monótono y tedioso: el 76% de los científicos de datos calificó la preparación de datos como la parte menos agradable de su trabajo. Además de eso, muchos científicos de datos en una empresa terminan trabajando en los datos para calcular las mismas características que otro científico de datos de la empresa ya ha creado.

Con Feature Store, un científico de datos puede comenzar inmediatamente con un nuevo problema explorando las características que ya están disponibles. En muchos casos, alguien en el pasado ya habrá creado las características relevantes, por lo que el científico de datos puede producir fácilmente un conjunto de entrenamiento y comenzar a construir modelos de inmediato.

Recomendado:  kNN Imputación por valores perdidos en el aprendizaje automático

Si las funciones que necesitan aún no están disponibles, siempre pueden crear sus propias funciones o colaborar con ingenieros de datos, lo que fortalecerá la Tienda de funciones para los demás en el futuro.

Habilitar la integridad de la canalización

Además de la pérdida de tiempo y energía del trabajo innecesario, la falta de una forma coherente de calcular las características puede conducir a modelos que varían enormemente entre los silos de datos.

Por ejemplo, en una empresa minorista, un equipo puede calcular los “ingresos totales del cliente” restando los rendimientos de las ventas, mientras que otro equipo los calcula simplemente usando las ventas. Ambas son métricas válidas, pero si ambas se denominan «ingresos totales del cliente», el resultado son métricas calculadas de manera inconsistente en diferentes canales de datos.

Una tienda de características aborda esto agregando trazabilidad, visibilidad y control de versiones en las canalizaciones de datos que alimentan las características. Además, las restricciones de nomenclatura están integradas en las tiendas de características que impiden que un equipo sobrescriba el trabajo de otro; el segundo equipo debe nombrar su cálculo como algo nuevo para distinguir su trabajo.

Pero las tiendas de características van más allá de facilitar la vida de los científicos de datos; también permiten mejores predicciones a partir de modelos de aprendizaje automático.

Mejore la actualidad de los datos

Si su modelo de aprendizaje automático está capacitado con datos que son inexactos o desactualizados, su modelo cometerá errores que podrían costarle. Tener los datos más recientes es absolutamente esencial en un entorno empresarial. Si un cliente compró un producto de un anuncio que vio ayer, pero los datos publicitarios no se actualizan hasta mañana, hoy se le podría mostrar un producto que ya posee. Cualquiera que haya estado en este puesto sabe lo molesto que es que lo demuestren, y si continúa sucediendo, es posible que se desanime de apoyar a esa empresa en el futuro.

Recomendado:  Optimización de salto de cuenca en Python

Con un Feature Store que administra sus canalizaciones de datos, usted y su equipo tienen la seguridad de que siempre se recuperan los datos más recientes. La canalización está programada para ejecutarse con la cadencia de los datos; las funciones mensuales se calculan mensualmente, las métricas diarias se calculan una vez al día y las funciones en tiempo real se actualizan instantáneamente, por lo que sus predicciones siempre se basan en los datos más recientes.

Facilitar la consistencia del tiempo

El tiempo lo es todo para los modelos de aprendizaje automático. Los cerebros humanos toman decisiones basadas en lo que sabemos en el momento y lo que hemos aprendido del pasado; no podemos tomar decisiones basadas en información del futuro. Los modelos de aprendizaje automático aprenden de la misma manera.

Al crear datos de entrenamiento, es extremadamente importante tener esto en cuenta. El conjunto de características utilizadas para el entrenamiento deben ser los valores que se conocían en el momento del evento.

Una tienda de características resuelve este problema al producir conjuntos de datos de entrenamiento con valores de características consistentes en el tiempo tomados del historial de cada conjunto de características en el momento de los eventos que se modelan.

Al mantener los valores históricos de todas las funciones, una Tienda de funciones le permite crear conjuntos de entrenamiento precisos, que a su vez se traducen en predicciones precisas.

Proporcionar explicaciones del modelo

Uno de los beneficios más poderosos de tener datos consistentes en el tiempo es que permite la confianza al verificar los modelos de aprendizaje automático.

Supongamos que dirige un banco y un regulador bancario viene a auditar el rendimiento de su software. El regulador quiere verificar que el proceso de su modelo para otorgar la solicitud de préstamo de un cliente sea imparcial. Si tiene un almacén de características con datos constantes en el tiempo y un linaje de datos transparente, es realmente fácil para el regulador verificar el proceso de suscripción y asegurarse de que no haya discriminación innata en los datos o el software.

Una combinación aún más poderosa es vincular su Feature Store con su sistema de flujo de trabajo de aprendizaje automático. Este vínculo sólido le permite crear un repositorio de todas las actividades y artefactos del cuaderno que se utilizaron para entrenar un modelo. Puede examinar el linaje del modelo en cuestión hasta los datos que entrenaron ese modelo. Ser capaz de analizar estos datos es crucial para garantizar que su modelo no se base en datos sesgados, de modo que pueda mostrarle a su regulador por qué su modelo llegó a la conclusión que llegó.

Recomendado:  Ingeniería y selección de características (Reseña del libro)

Conclusión

Entonces, ¿por qué necesita una tienda de características? No solo ahorra tiempo y energía a los científicos de datos, sino que también permite que los modelos de aprendizaje automático realicen predicciones más precisas que pueden aumentar los ingresos de una empresa. Además de eso, la automatización de partes clave del proceso de aprendizaje automático permite que los modelos se creen más rápidamente y a un precio menor, lo que le permite escalar la IA empresarial 100 veces más rápido. Finalmente, mantener todos estos pasos claramente visibles y abiertos al escrutinio facilita garantizar el cumplimiento normativo, lo que genera confianza tanto en sus clientes como en sus críticos.

Sobre el Autor

Monte Zweben es el director ejecutivo y cofundador de Splice Machine. Un veterano de la industria de la tecnología, Monte pasó sus primeros años en el Centro de Investigación Ames de la NASA como subdirector de la rama de inteligencia artificial, donde ganó el prestigioso premio Space Act Award por su trabajo en el programa Space Shuttle. Monte luego fundó y fue presidente y director ejecutivo de Red Pepper Software, una empresa líder en optimización de la cadena de suministro, que luego se fusionó con PeopleSoft, donde fue vicepresidente y director general de la unidad de negocio de fabricación. Luego, Monte fue el fundador y director ejecutivo de Blue Martini Software, líder en comercio electrónico y marketing omnicanal. Fue presidente de Rocket Fuel Inc. y es miembro del consejo asesor del decano de la Facultad de Ciencias de la Computación de la Universidad Carnegie Mellon.