Los equipos de ciencia de datos están cambiando su enfoque del desarrollo de modelos al desarrollo de conjuntos de datos para ofrecer iniciativas de aprendizaje automático (ML) e inteligencia artificial (AI) que sean más eficientes, diferenciadas y alineadas con los objetivos comerciales. Este y otros hallazgos están disponibles en la primera Encuesta de la comunidad de Label Studio, donde científicos de datos, ingenieros de ML e investigadores de la comunidad global de código abierto compartieron información sobre el estado de ML e IA.
Label Studio es la plataforma de etiquetado de datos de código abierto más popular con más de 150 000 usuarios en todo el mundo, más de 95 000 000 de anotaciones creadas y más de 11 000 estrellas en GitHub. Miembros de la comunidad de más de 40 países participaron en la encuesta, y el 75 % de los encuestados actualmente tienen modelos ML/AI en producción y otro 15 % planea tener modelos en producción pronto.
“Estamos en medio de un cambio fundamental en la forma en que las organizaciones abordan ML e IA”, dijo Michael Malyuk, cofundador y director ejecutivo de Heartex, creadores de Label Studio. “El desarrollo de modelos alguna vez fue la fuente de valor diferenciado, pero como destacan los resultados de esta encuesta, las organizaciones ahora dedican entre el 50 y el 80 % de su tiempo a iterar sobre el conjunto de datos y la calidad de su etiquetado para entrenar modelos precisos. A esto lo llamamos desarrollo de conjuntos de datos de prácticas emergentes”.
Las aplicaciones exitosas de ML e IA se basan en modelos entrenados con datos de alta calidad. La Encuesta de la comunidad de Label Studio de 2022 explora el estado actual del ecosistema ML/AI, con un enfoque en cómo los equipos abordan el etiquetado, la preparación y la gestión de datos como una parte clave del proceso.
Conclusiones clave de la encuesta comunitaria de Label Studio
El aprendizaje automático y la IA se están volviendo cada vez más estratégicos.
- El 73% de los encuestados señaló que sus organizaciones realizarán un mayor nivel de inversión en sus iniciativas de ML/AI el próximo año.
Los datos plantean el mayor desafío para poner en producción los modelos ML/AI.
- El 80 % de los encuestados afirma que los datos etiquetados con precisión son uno de los mayores desafíos para poner en producción modelos de ML/IA (la respuesta principal), mientras que el 46 % mencionó la falta de datos como uno de los mayores desafíos (la segunda respuesta más popular).
Los equipos de ciencia de datos ahora dedican la mayor parte de su tiempo a la preparación, gestión e iteración de conjuntos de datos, lo que se conoce como desarrollo de conjuntos de datos.
- El 72 % de los encuestados informaron que dedican el 50 % o más de su tiempo a la preparación, iteración y gestión de datos, mientras que más de un tercio (34 %) de los encuestados dijeron que dedican el 75 % o más de su tiempo a los datos.
La preparación y el etiquetado de datos se están volviendo cada vez más multifuncionales.
- Si bien la mayoría de los encuestados tienen los roles tradicionales de científicos de datos e ingenieros de datos, la responsabilidad del etiquetado de datos es amplia y requiere la participación de todas las organizaciones, desde pasantes hasta ejecutivos y líderes empresariales. En particular, el 20 % informó que una combinación de roles tenía la responsabilidad de la preparación de datos, incluidos los expertos en la materia, que representaron el 5 % de las respuestas, y los analistas comerciales, que representaron el 3 %.
La Encuesta de la comunidad de Label Studio también se sumerge en las opciones de tecnología populares y encuentra que las cargas de trabajo de ML/IA se alojan principalmente en ofertas en la nube, mientras que HuggingFace es la fuente más popular de modelos preentrenados. Se pueden encontrar más detalles en el informe completo.
Regístrese para recibir el boletín gratuito insideBIGDATA.
Únase a nosotros en Twitter: https://twitter.com/InsideBigData1
Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/
Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW