Saltar al contenido

6 pasos para liderar equipos de ciencia de datos exitosos

17 de agosto de 2021

es profesor de práctica en MIT Sloan. Se especializa en ciencia de datos y aprendizaje automático. Fue empresario de ciencia de datos y ejecutivo de tecnología durante más de 20 años, más recientemente como vicepresidente senior de Salesforce y científico de datos jefe de Salesforce Commerce Cloud.

Un número cada vez mayor de organizaciones están incorporando científicos de datos a medida que los ejecutivos y gerentes reconocen el potencial de la ciencia de datos y la inteligencia artificial para impulsar el rendimiento. Pero contratar científicos de datos talentosos es una cosa; aprovechar sus capacidades en beneficio de la organización es otra.

Apoyar y obtener lo mejor de los equipos de ciencia de datos requiere un conjunto particular de prácticas, que incluyen identificar claramente los problemas, establecer métricas para evaluar el éxito y observar de cerca los resultados. Estos pasos no requieren conocimientos técnicos y, en su lugar, dan prioridad a un pensamiento empresarial claro, incluida la comprensión del negocio y cómo lograr un impacto para la organización.

Los equipos de ciencia de datos pueden ser una gran fuente de valor para la empresa, pero no brindarles la orientación adecuada no es una receta para el éxito. Seguir estos pasos ayudará a los equipos de ciencia de datos a desarrollar todo su potencial, en beneficio de su organización.

1. Dirija a los equipos de ciencia de datos hacia el problema correcto.

Los líderes empresariales deben tener un cuidado extraordinario al definir el problema que quieren que resuelvan sus equipos de ciencia de datos. Los científicos de datos, especialmente los nuevos, a menudo quieren comenzar a preparar datos y construir modelos. Y al menos inicialmente, es posible que no tengan la confianza para interrogar a un ejecutivo de negocios senior, especialmente si esa persona es el patrocinador del proyecto.

Depende de los líderes asegurarse de que el equipo se concentre en el problema correcto. Por ejemplo, una empresa que crea un modelo para decidir a qué clientes dirigirse en una campaña de marketing debe decidir si el modelo debe identificar a los clientes con una alta propensión a realizar transacciones, o si debe identificar a los clientes que probablemente realizarán transacciones. si se hizo campaña pero no de otra manera.

Dependiendo de la respuesta, el camino tomado por el equipo de ciencia de datos, incluidos los datos de capacitación, el enfoque de modelado y el nivel de esfuerzo, probablemente será bastante diferente, al igual que el impacto en el negocio.

De manera más general, para maximizar la posibilidad de identificar el problema correcto, observe lo que están haciendo otras empresas de su industria, especialmente las primeras en adoptar la ciencia de datos. Preste menos atención a cómo lo están resolviendo, ya que generalmente hay muchas formas diferentes de resolver cualquier problema de ciencia de datos, y más atención a qué están resolviendo.

2. Decidir sobre una métrica de evaluación clara desde el principio.

Para resolver un problema, los equipos de ciencia de datos generalmente crean muchos modelos y luego seleccionan el que parece mejor. Para hacer esta selección necesitan una métrica. Dados varios modelos, pueden usar esta métrica para clasificarlos y elegir el mejor.

Recomendado:  Datos sintéticos de alta fidelidad para ingenieros y científicos de datos por igual

Los líderes deben usar el juicio empresarial para determinar cuál debería ser esa métrica, que es más complicado de lo que parece. En cualquier situación empresarial compleja, no existe una única métrica perfecta. Por lo general, hay muchas métricas relevantes y, a menudo, entran en conflicto entre sí.

Por ejemplo, se le puede pedir a un equipo de ciencia de datos que use datos de contacto históricos para construir un modelo que ayude al equipo de ventas a priorizar a qué clientes contactar. De los muchos modelos que construirá el equipo, ¿qué métrica indicará el mejor?

Una opción es la tasa de error o el porcentaje de puntos de datos para los que las predicciones del modelo son incorrectas. Esta es una métrica razonable, pero es un promedio de dos cosas: la tasa de falsos negativos (prospectos que se predice que serán una pérdida (no vale la pena contactarlos) que en realidad habría sido una ganancia) y la tasa de falsos positivos o prospectos predichos. para ser una victoria que resulta ser una pérdida.

Un modelo con la tasa de error más baja puede tener una combinación de falsos positivos y falsos negativos que puede no ser ideal para su negocio, ya que estos dos tipos de errores pueden tener impactos muy diferentes. Un modelo con un ligero más alto La tasa de error general puede incluso ser preferible si equilibra los falsos positivos y los falsos negativos de una manera que sea mejor para su negocio. La mejor manera de equilibrar estos errores debe ser parte del proceso de selección del modelo y requiere la orientación del equipo comercial por adelantado.

Si no está seguro de qué métrica usar, solicite a su equipo de ciencia de datos que lo eduque sobre las métricas que se usan normalmente en la industria para evaluar modelos para problemas similares. Puede seleccionar uno que refleje lo que es importante para la empresa y, si ninguno de ellos coincide, puede trabajar con su equipo de ciencia de datos para crear una métrica personalizada.

3. Primero, cree una línea de base de sentido común.

Una vez que haya decidido un problema relevante e importante y haya definido una métrica de evaluación clara que refleje las prioridades comerciales, debe crear una línea de base de sentido común, que es la forma en que su equipo resolvería el problema si no conociera ninguna ciencia de datos. . Por ejemplo, si su equipo de ciencia de datos está creando un algoritmo de recomendación personalizado para su sitio de comercio electrónico, una línea de base simple sería rastrear qué categorías de productos miran los visitantes y recomendar los productos más vendidos de esas categorías.

La construcción de una línea de base de sentido común obligará al equipo a hacer funcionar la canalización de datos y evaluación de un extremo a otro y a descubrir cualquier problema, como el acceso a los datos, la limpieza y la puntualidad. También mostrará cualquier obstáculo táctico con el cálculo real de la métrica de evaluación.

Recomendado:  Validación cruzada anidada para el aprendizaje automático con Python

Saber qué tan bien funciona la línea de base en la métrica de evaluación le dará una idea aproximada de cuánto beneficio esperar del proyecto. Los profesionales experimentados saben muy bien que las líneas de base del sentido común a menudo son difíciles de superar. E incluso cuando los modelos de ciencia de datos superan estas líneas de base, pueden hacerlo por márgenes reducidos.

Finalmente, esto también lleva al equipo de ciencia de datos a dedicar un tiempo a pensar en los datos y el problema desde los primeros principios, en lugar de simplemente sumergirse y lanzar potentes modelos de aprendizaje automático al problema. Desarrollarán una intuición valiosa sobre lo que hará que una solución propuesta funcione bien en la métrica de evaluación y pensarán qué evitar. Naturalmente, esto también los llevará a hablar con los usuarios finales comerciales que pueden haber estado resolviendo el problema manualmente. Quizás lo más importante es que comenzarán a establecer relaciones con colegas no técnicos que comprendan el negocio, lo que redundará en beneficios para su organización a largo plazo.

4. Gestionar proyectos de ciencia de datos más como investigación que como ingeniería.

Es natural que los ejecutivos bien intencionados pidan a los equipos de ciencia de datos que se comprometan con un cronograma claro y los hagan responsables. Después de todo, esto se hace de forma rutinaria en la gestión de proyectos. Pero en este caso, es un error.

Hay un fuerte elemento de investigación en la mayoría del trabajo de ciencia de datos, lo que significa que se pasa una buena cantidad de tiempo en callejones sin salida sin nada que mostrar por el esfuerzo. Esta prueba y error hace que sea difícil predecir cuándo ocurrirá un gran avance.

Por ejemplo, los científicos de datos pueden producir rápidamente una solución que sea un 6% mejor. Pero no pueden predecir cuánto tiempo les tomará mejorar del 6% al 10%. Puede suceder mañana, puede suceder el próximo mes, puede que nunca suceda.

En 2006, Netflix invitó a científicos de datos de todo el mundo a superar su sistema interno de recomendación de películas. El primer equipo en mostrar una mejora del 10% recibiría un gran premio de $ 1 millón, y 41.305 equipos de 186 países se lanzaron a la refriega. Aun así, se necesitaron tres años para traspasar la barrera del 10%.

Si los científicos de datos siguen incumpliendo los plazos, no asuma que son incompetentes. El problema en el que están trabajando puede ser difícil y nadie puede predecir cuándo se resolverá a su satisfacción.

Lo que los líderes pueden hacer es reunirse regularmente con los equipos de ciencia de datos para comprender los altibajos del trabajo de ciencia de datos, que en sí mismo es algo valioso para desarrollar. Si los líderes se dan cuenta en algún momento de que los esfuerzos del equipo se estancan y la mejora avanza lentamente, puede ser una buena idea hacer una pausa y reconsiderar si la mejora es lo suficientemente buena y podría ser el momento de considerar detener el proyecto. Esta no será una decisión fácil, pero la alternativa podría ser una espera larga e incierta sin garantía de éxito.

Recomendado:  Presentamos Vultr Talon con GPU NVIDIA: el avance de la plataforma en la nube hace que la computación acelerada sea eficiente y asequible

5. Compruebe la «verdad y las consecuencias».

Es importante someter los resultados a un escrutinio intenso para asegurarse de que los beneficios sean reales y no haya consecuencias negativas no deseadas. La verificación más básica es asegurarse de que los resultados se calculen sobre datos que no se utilizaron para construir los modelos.

Artículos relacionados

Suponiendo que los resultados son reales, también verifique que no haya efectos secundarios adversos. Cuando un modelo mejora el rendimiento en una métrica seleccionada, puede hacerlo a expensas de otras métricas importantes. Por ejemplo, una empresa de comercio electrónico puede centrarse en mejorar los ingresos por visitante con un algoritmo de recomendación mejorado. Los ingresos por visitante son el producto de la tasa de conversión y los ingresos por conversión.

Si el algoritmo logra su objetivo aumentando los ingresos por conversión, pero disminuye la tasa de conversión, puede dañar el objetivo estratégico de la organización de lograr que más visitantes se conviertan en clientes. Con solo lograr que los clientes existentes gasten más, puede terminar agotando sus presupuestos, por así decirlo, y conducir a una disminución del crecimiento en el futuro.

Siempre es necesario juzgar la compensación entre una métrica y otra, y los líderes empresariales deben participar en la toma de esas decisiones.

6. Registre todo y vuelva a capacitarse periódicamente.

Ninguna cantidad de pruebas antes del lanzamiento puede proteger completamente los modelos de producir predicciones inesperadas o incorrectas con ciertos tipos de datos de entrada. Pero si cada entrada y salida se registra con el mayor detalle posible, investigar y solucionar problemas será más fácil y rápido. Esto es particularmente importante para las aplicaciones orientadas al consumidor.

Y con el tiempo, la naturaleza de los datos que se envían al modelo comenzará a alejarse de los datos utilizados para construir el modelo. Si no se toman medidas, esto reducirá la eficacia del modelo, por lo que es importante asegurarse de que los equipos de ciencia de datos hayan automatizado procesos en el lugar para rastrear rendimiento del modelo a lo largo del tiempo y reentrenamiento según sea necesario.

Los modelos de ciencia de datos, como el software en general, tienden a requerir una gran cantidad de esfuerzo futuro debido a la necesidad de mantenimiento y actualizaciones. Tienen una capa adicional de esfuerzo y complejidad debido a su extraordinaria dependencia de los datos y la consiguiente necesidad de reentrenamiento. Además, la falta de conocimiento sobre cómo funcionan los modelos puede dificultar la identificación y resolución de problemas. Registrar todo y volver a capacitar a los modelos periódicamente son formas comprobadas de abordar estos desafíos.