Por lotes o por transmisión: esa es la pregunta del día

El fundador de Claypot AI, Chip Huyen, diseña sistemas de aprendizaje automático que combinan transmisión de datos y procesamiento por lotes para adaptarse a múltiples tipos de datos.

Como parte de nuestra asociación de medios con apply(conf) de Tecton, que tuvo lugar a principios de este año, RTInsights tuvo la oportunidad de hablar con Chip Huyen, autor, instructor de Stanford y fundador de la startup, sobre su sesión de apply(conf), «Aprendizaje automático Plataforma para la predicción en línea y el aprendizaje continuo” y el camino que condujo a esta experiencia en la materia. Chip Huyen escribió recientemente «Diseño de sistemas de aprendizaje automático» (O’Reilly, 2022) y es autor de cuatro libros superventas en vietnamita.

Nota: Esta entrevista fue editada y condensada para mayor claridad.

RTInsights: ¿Cómo pasó de escribir libros vietnamitas a convertirse en diseñador de sistemas de aprendizaje automático?

Informe especial: Marcando el comienzo de una nueva era para el análisis de comportamiento aplicado al fraude [Download Now]

Chip Huyen: Comencé con experiencia en escritura y luego, en la universidad, comencé a tomar clases de informática. En Stanford, es casi imposible no tomar cursos de informática. Mis amigos me dijeron que, dado que la informática es parte del requisito fundamental allí, debería tomar un curso lo antes posible para sacarlo del camino y disfrutarlo.

Cuando comencé en Stanford, pensé que me especializaría en escritura creativa, definitivamente no en ciencias de la computación. Luego tomé ese primer curso y tuve mucha suerte porque el profesor me inspiró para convertirme en profesor. Su curso cambió totalmente mi mente acerca de la informática. De hecho, lo hizo divertido. Así que decidí especializarme en informática.

En Quora, alguien hizo la pregunta: «¿Quién crees que es el mejor profesor del mundo y por qué?» Escribí sobre mi primer profesor de informática y la respuesta obtuvo alrededor de un millón de visitas.

RTInsights: Cuando tomaba esos cursos y para su especialización, ¿incluían ciencia de datos y estadística? ¿Cómo terminaste específicamente en el aprendizaje automático?

Huyen: Mi primera clase fue un curso de introducción general, pero aprendimos creando juegos, lo cual fue muy divertido.

Algunas clases eran computacionales, lo que me convenía ya que tenía experiencia en matemáticas (de hecho, estaba en el equipo de matemáticas en la escuela secundaria). Las estadísticas y las probabilidades son muy divertidas. Tomé una clase de sistemas y una clase de base de datos, y fueron miserables y muy difíciles. Fue entonces cuando supe que no iba a ser una persona de base de datos.

Una clase de IA me hizo cambiar de opinión sobre los datos. Realmente creo que mi percepción de las clases se debió a los profesores y cómo abordaron el tema. Como la IA me resultaba muy interesante y parecía bastante fácil, decidí seguir con ella.

RTInsights: Nos gustaría saber más sobre su opinión sobre la transmisión de datos y los datos por lotes. Nos parece que las habilidades técnicas para manejar lotes son realmente diferentes de las de transmisión. El análisis de datos de transmisión sigue siendo objeto de mucha investigación académica. ¿Hay alguna manera de cerrar la brecha?

Huyén: Necesitas ambos. La dificultad con la transmisión es que todavía es nueva y no tenemos suficientes herramientas para ello. Una plataforma bien diseñada debería abstraer la complejidad. No debería tener que preocuparse por cómo obtiene los datos, solo por obtener los mejores datos para lo que está tratando de lograr.

La diferencia fundamental entre los dos es que los datos por lotes generalmente se refieren a datos que se direccionan y recopilan en un almacén de datos o en algún otro sistema de almacenamiento. Los datos de transmisión son datos en movimiento.

Un método para acceder a ambos tipos de datos es volcar los datos de transmisión en un almacén de datos. Incluso si puede volcarlo cada hora o cada diez minutos, y es súper rápido, todavía está esperando datos. Siendo realistas, las personas aún recopilan sus datos transmitidos diariamente, por lo que hay muchas empresas esperando datos.

Algunas empresas acceden directamente a los datos de las redes sociales que son más frescos y nuevos, pero se mantienen alejados de la transmisión de datos porque es muy difícil. Lo ideal sería que fuera igualmente fácil hacer streaming y lote.

Informe especial: Marcando el comienzo de una nueva era para el análisis de comportamiento aplicado al fraude [Download Now]

Eso es lo que hace Claypot AI. El software maneja los dos tipos de fuentes de datos en segundo plano y le da al usuario acceso a todos los datos. También podemos proporcionar acceso a la transmisión de datos casi en tiempo real. La empresa no tiene que recopilar datos transmitidos en un programa casi por lotes. Por lo general, se debe acceder a los datos por lotes y transmitidos con diferentes herramientas. Hacemos que eso desaparezca también. El usuario empresarial no tiene que elegir entre los tipos de datos o las herramientas para analizarlos.

RTInsights: Claypot AI suena como si estuviera cerrando la brecha entre el mundo de la transmisión y el mundo de los lotes. Hará la vida del usuario final más fácil, pero también asumirá un importante trabajo de ingeniería de ML. ¿Qué consejo tienes para alguien que se inicia en la ingeniería de ML?

Huyen: Deberían dedicarse a las criptomonedas en su lugar [laugh]. Es interesante lo rápido que se llenó tanto el campo. Hace tres años, nadie hablaba de MLOps. Hace dos años hasta ahora, la gente tiene diferentes definiciones de lo que es.

Creo que la gente realmente no entiende quién está en un equipo de MLOps o quién realmente hace MLOp. El campo definitivamente todavía está en proceso de cambio.

Lo que veo es que muchas personas están tratando de obtener habilidades de ML. Piensan que la forma más rápida es seguir el enfoque del tutorial. Hay ejemplos de cómo se realizan partes del flujo de trabajo y aprenden plantillas que creen que pueden simplemente copiar y pegar.

El problema con este enfoque es que es posible que no tenga una comprensión clara del problema que está tratando de resolver, y ciertamente no sabe por qué está haciendo las cosas de cierta manera.

Si aprendió MLOps a través de tutoriales en línea, estará bien siempre que todo funcione sin problemas. Pero no tienes una buena base para resolver problemas complejos. Para mí, es muy importante centrarse menos en la tecnología y estar más orientado a los problemas. Para encontrar eso, tienes que mirar a través de muchos currículos.

El problema con las tecnologías es que se vuelven obsoletas muy rápidamente. Tener TensorFlow en tu currículum no es suficiente. Una buena pregunta de entrevista es: «¿Cómo organizaría un proyecto para abordar un problema específico?»

Otro malentendido es no darse cuenta de que la ingeniería de aprendizaje automático es principalmente ingeniería y muy poco aprendizaje automático. Muchas personas interesadas en MLOps pueden tomar algunas clases de aprendizaje automático, pero carecen de una formación profunda en ingeniería. Si quiere tener éxito en MLOps, concéntrese en ser un gran ingeniero.

RTInsights: ¿Qué consejo le daría a los científicos de datos que trabajan en equipos pequeños que tienen la tarea de llevar un proyecto a producción y que podrían no tener ese tipo de habilidades de ingeniería?

Huyen: Esa es una pregunta difícil porque la respuesta depende de qué tipo de infraestructura existe y en qué etapa se encuentra su empresa.

Las empresas que desarrollaron enfoques de ingeniería de datos tienen un conjunto de herramientas muy diferente, una plataforma diferente de una empresa que ahora está adoptando el aprendizaje automático.

Informe especial: Marcando el comienzo de una nueva era para el análisis de comportamiento aplicado al fraude [Download Now]

Todo está cambiando muy rápido, y este podría ser un caso en el que los pioneros estén realmente en desventaja porque tuvieron que desarrollar algunas de sus propias herramientas internamente o adaptar plataformas que no fueron diseñadas para el propósito para el que fueron utilizadas.

RTInsights: ¿Qué ve hacia el futuro? ¿Cuáles serán algunas de las tendencias importantes en datos y análisis?

Huyen: La gente se siente más cómoda trabajando con datos en tiempo real. Y gran parte de ese trabajo migrará a la nube. Cuando una carga de trabajo se ejecuta en un centro de datos, puede escalar desde el uso de cinco servidores a mil y luego volver a escalar en una nube. Tener esta flexibilidad para administrar las fluctuaciones y poder permanecer en la misma plataforma informática, independientemente de las necesidades, tendrá un impacto tremendo.

Algunas de las empresas con las que he hablado tienen una plataforma completamente separada para acceder rápidamente a los datos de su almacén de datos más tradicional.

RTInsights: ¿Cuáles son algunos de los casos de uso para el acceso rápido o en tiempo real a los datos?

Huyen: La detección de fraude es probablemente la más importante; no solo detectar el fraude inmediatamente después de que se produce una transacción, sino también predecir cuándo es probable que se produzca un fraude y tener la capacidad de mitigarlo o cancelar una transacción es algo muy poderoso.

Otro caso de uso importante es la fijación dinámica de precios, que optimiza un precio que refleja el contexto del momento. Eso es lo que pueden hacer Uber, Lyft y Airbnb.

Otro es tener motores de recomendación más sofisticados. Actualmente, estos funcionan con datos históricos, pero el acceso a datos nuevos, el contexto actual, aumentará enormemente su precisión.

Vea la charla de Chip sobre la aplicación (conf) aquí.

*Lisa Damast contribuyó a este artículo.

Lea el resto de la serie:

6T4: Demetrios Brinkmann, sobre el papel de la comunidad en la resolución de los mayores desafíos de MLOps

Informe especial: Marcando el comienzo de una nueva era para el análisis de comportamiento aplicado al fraude [Download Now]

Sarah Catanzaro de Amplify Partners sobre la evolución de MLOps

apply(conf) pone todo sobre la mesa para ayudar a los equipos de datos y ML a tener éxito