Entrevista: Tiendas de artículos para el aprendizaje automático

Últimamente, se ha discutido mucho en el espacio de aprendizaje de la máquina sobre el concepto de las tiendas de artículos de fondo. Las tiendas de artículos de fondo fueron desarrolladas por el equipo de Uber Michelangelo para apoyar el despliegue de miles de modelos de aprendizaje automático en la producción. Hoy en día, han surgido varios almacenes de características comerciales y de código abierto, haciendo que la tecnología sea accesible a todas las organizaciones. ¿Qué es esta tecnología y por qué la industria está invirtiendo en ella? A continuación, Mike Del Balso de Tecton y Willem Pienaar de Feast responden a nuestras preguntas y explican por qué los almacenes de características son clave para construir modelos de aprendizaje automático y desplegarlos en la producción para potenciar nuevas aplicaciones.

dentro de Bigdata: ¿Qué son las características y por qué son tan importantes?

Mike/Willem: Esencialmente, las características son la columna vertebral de cualquier aplicación de ML. Una característica es un dato que sirve como señal de entrada predictiva a un modelo. Las características se derivan de la transformación de todo tipo de datos en bruto, desde datos de transmisión en tiempo real hasta datos históricos por lotes. Por ejemplo, digamos que un servicio de entrega de alimentos quisiera mostrar un tiempo de entrega esperado en su aplicación. Una característica útil podría ser la distancia del restaurante a la dirección de entrega. Otra podría ser el número de pedidos entrantes que el restaurante ha recibido en los últimos 30 minutos.

dentro de Bigdata: ¿Qué es una tienda de artículos de interés?

Mike/Willem: Un almacén de características es un sistema de datos específico para el aprendizaje automático que actúa como el centro de las características a lo largo del ciclo de vida de un proyecto ML. Hace funcionar los conductos de datos que generan los valores de las características, y sirve esos valores para el entrenamiento y la inferencia. Permite a los científicos de datos construir nuevas características en colaboración, y desplegarlas en la producción de forma rápida y fiable. En resumen, aporta principios similares a los de DevOps a los datos de ML.

dentro de Bigdata: ¿Cómo se originó el concepto de la tienda de artículos de interés?

Mike/Willem: La primera tienda real de la industria fue construida por el equipo de Miguel Ángel en Uber. Cuando yo [Mike] se unió por primera vez a Uber, fue increíblemente difícil conseguir que los modelos ML se produjeran. Llevar un solo modelo a producción requería una compleja coordinación entre los científicos de datos, los ingenieros de datos, los ingenieros de ML y los equipos de DevOps.

Mi equipo, Miguel Ángel, fue encargado de construir la infraestructura de ML para simplificar este proceso de llevar el ML a la producción. Comenzamos centrándonos en los modelos, pero incluso después de que implementamos una plataforma para que los científicos de datos pudieran entrenar, validar y servir más fácilmente a los modelos en producción, seguíamos teniendo problemas. Nos dimos cuenta de que el principal cuello de botella eran los datos, y específicamente la construcción y el despliegue de características.

dentro de Bigdata: ¿Qué es el ML operativo?

Mike/Willem: El ML operacional consiste realmente en ejecutar modelos ML en producción para generar predicciones en tiempo real y para alimentar aplicaciones de producción. Las organizaciones utilizan el ML operacional para construir una nueva clase de aplicaciones que ofrezcan nuevas experiencias a los clientes y automaticen los procesos de negocio. El ML operacional permite un sinnúmero de nuevos casos de uso, incluyendo recomendaciones personalizadas de productos, precios dinámicos, suscripción de seguros en tiempo real y optimización de inventarios.

dentro de Bigdata: ¿Por qué es tan difícil construir e implementar características?

Mike/Willem: A pesar de toda la promesa del ML Operativo, es difícil de hacer a escala. Cuando se construyen aplicaciones tradicionales, los equipos de ingeniería sólo necesitan construir y desplegar aplicaciones. En el mundo del ML operacional, las empresas tienen que desplegar aplicaciones, modelos y características para la producción.

La mayoría de las empresas pueden construir e implementar aplicaciones de manera eficiente. Ese es el resultado de décadas de mejora en las herramientas y procesos de ingeniería de software, culminando en las modernas prácticas de DevOps de hoy en día. Pero no tenemos décadas de experiencia en llevar modelos y características a la producción, y no tenemos herramientas y procesos como DevOps para el ML. Hasta ahora, la analítica se ha limitado principalmente a generar conocimientos para el consumo humano fuera de línea. La mayoría de los científicos de datos están construyendo tableros y predicciones fuera de línea, no construyendo sistemas que generen predicciones con SLA de producción de misión crítica.

Cada vez es más fácil llevar modelos a la producción con plataformas emergentes de MLOps como Kubeflow. Pero todavía nos faltan las herramientas adecuadas para llevar las características a la producción, y esa fue la motivación para construir una tienda de características en Uber.

dentro de Bigdata: ¿Qué es lo que un almacén de características permite a los científicos de datos hacer?

Mike/Willem: Las tiendas de artículos de fondo aportan capacidades similares a las de DevOps al ciclo de vida de los artículos. Permiten a los científicos de datos construir una biblioteca de características en colaboración usando datos por lotes, en flujo y en tiempo real. Los científicos de datos pueden servir instantáneamente sus datos de características en línea, sin depender de otro equipo para reimplementar las tuberías de producción. Los científicos de datos pueden buscar y descubrir características existentes para maximizar la reutilización a través de los modelos.

dentro de Bigdata: ¿Todas las tiendas de artículos de lujo son iguales? ¿Qué tipo de variaciones debemos tener en cuenta?

Mike/Willem: Estamos empezando a ver una convergencia en la definición de una tienda de artículos de interés. Pero hay diferencias significativas entre los productos individuales en la categoría de tienda de artículos de interés. Los usuarios deben educarse antes de seleccionar una tienda específica.

En primer lugar, una tienda de características debe gestionar el ciclo de vida completo de las características – desde las transformaciones hasta el servicio en línea. Los productos más básicos sólo almacenan y sirven valores de características, y no gestionan las transformaciones que generan esos valores. En otras palabras, proporcionan una única fuente de verdad para los datos, pero no simplifican el proceso de construcción de nuevas características. Los científicos de los datos siguen confiando en los equipos de ingeniería de datos para construir manualmente tuberías de producción a medida.

En segundo lugar, las tiendas de artículos de fondo deberían poder construir artículos a partir de datos por lotes, en flujo y en tiempo real. Esto es importante para tener un contexto histórico para la capacitación, al tiempo que se proporcionan valores de características frescas para la inferencia en tiempo real. Algunos productos sólo son capaces de manejar fuentes de datos por lotes y/o por corrientes.

En tercer lugar, las tiendas de artículos de consumo deben estar preparadas para la empresa con seguridad y vigilancia incorporadas. Y deben integrarse fácilmente con una variedad de fuentes de datos y plataformas MLOps.

dentro de Bigdata: ¿Cómo encaja un almacén de características en la pila completa para el ML operativo?

Mike/Willem: Es un momento emocionante en MLOps, y como las pilas de ML operativas todavía están tomando forma, la pila canónica no existe todavía. Lo que está claro es que los equipos de construcción de máquinas que aprenden a potenciar los productos y experiencias de los usuarios finales en vivo se están alejando de las plataformas ML monolíticas, y tratan la ML más como desarrollo de software. Esto significa incorporar una colección de las mejores herramientas de su clase que trabajan en conjunto para permitir poderosos flujos de trabajo.

Será fascinante ver cómo evoluciona en el futuro la pila para el ML operacional. Pero no hay duda de que las organizaciones se beneficiarán enormemente al tener acceso a herramientas más avanzadas que les ayuden a llevar el ML a la producción. En última instancia, las organizaciones crearán más aplicaciones potenciadas por el ML para ofrecer nuevas experiencias a los clientes y automatizar los procesos empresariales.

Acerca de los entrevistados

Mike Del Balso es cofundador y director general de Tecton. Mike se centra en la construcción de la infraestructura de datos de última generación para el ML Operativo. Antes de Tecton, fue el líder del PM para la plataforma Uber Michelangelo ML. También fue gerente de producto en Google, donde administró los sistemas centrales de ML que impulsan el negocio de anuncios de búsqueda de Google. Antes de eso, trabajó en Google Maps. Es licenciado en Ingeniería Eléctrica e Informática con mención honorífica por la Universidad de Toronto.

Willem Pienaar dirige el equipo de la Plataforma de Ciencia de Datos de Gojek, desarrollando la plataforma Gojek ML, que soporta una amplia variedad de modelos y maneja más de 100 millones de pedidos cada mes. Sus principales áreas de interés son la construcción de plataformas de datos y ML, que permiten a las organizaciones escalar el aprendizaje de las máquinas e impulsar la toma de decisiones. En una vida anterior, fundó y vendió una empresa de redes.

Suscríbete al boletín de noticias gratuito de InsideBIGDATA.