A medida que nos acercamos al final de 2022, es cada vez más claro que la ciencia de datos ya no es dominio de las empresas, sino que incluso las medianas empresas y las pymes están recurriendo a ella. Con una gran cantidad de datos a su disposición, las organizaciones grandes y pequeñas recurren a los datos y el análisis para obtener una ventaja sobre sus competidores.
Estos son algunos de los mejores consejos de ciencia de datos que combiné para ayudarlo a mejorar su ciencia de datos en 2023.
Prepárese para trabajar en la nube
Con un conjunto creciente de datos que está alcanzando niveles inmanejables, la transformación de datos se vuelve más difícil, no más fácil. Las organizaciones no solo están lidiando con una creciente avalancha de datos, sino también con sistemas heredados y varias estructuras de datos heredadas. Y la nube podría ser la única forma de que las empresas salgan adelante.
Específicamente, la nube permite centralizar y conectar los puntos entre las fuentes de datos. Como señaló Karthikeyan Rajasekharan de Microsoft, esto permite a los clientes hacer mejores preguntas, incluidas preguntas que no podían hacer anteriormente.
La nube también ofrece un mayor acceso a nuevas herramientas que de otro modo no estarían disponibles. Por ejemplo, escribí recientemente sobre cómo un estudiante de ingeniería mecánica entrenó un modelo de difusión estable alquilando GPU en Vast.ai basado en la nube por un par de dólares. Con la nube, el cielo es el límite.
La ciencia de datos es ahora un deporte de equipo
Los días en que un pequeño puñado de científicos de datos de primer nivel podía abordar las necesidades de toda la organización han terminado. La amplitud y el alcance de los desafíos de datos actuales exigen que los equipos de expertos en datos trabajen junto con los científicos de datos para prepararse, analizar y poner en práctica los problemas de datos.
En última instancia, lo que la mayoría de las organizaciones necesitan no son más científicos de datos, sino una forma de amplificar su impacto. En este frente, Libby Duane Adams de Alteryx sugirió que los científicos de datos existentes deberían dividir su enfoque entre conocimientos macro y aprovechar la experiencia colectiva de los analistas y gerentes comerciales existentes.
No ignores tus datos oscuros
Podría decirse que la explosión de datos está superando la capacidad de las empresas para usarlos, lo que culmina en datos oscuros, que son activos de información que las organizaciones recopilan, procesan y almacenan durante las actividades comerciales regulares, pero que generalmente no se utilizan para otros fines. Puede descubrir correlaciones ocultas entre piezas de información que se pensaba que no estaban relacionadas.
Los datos oscuros pueden representar un riesgo regulatorio en algunos casos. Para los bancos, los reguladores no estarían impresionados por la presencia de datos existentes que revelaran señales de alerta de fraude, o que podrían haberse utilizado para prevenir una violación de datos.
Según Ajay Bhatia de Veritas, la IA se puede usar para identificar y administrar datos no etiquetados y no estructurados, escanearlos, etiquetarlos y clasificarlos rápidamente para su uso. También se puede aprovechar para analizar grandes cantidades de datos. Específicamente, la IA puede administrar fácilmente el volumen de datos para identificar posibles anomalías y descubrir otras perspectivas difíciles de encontrar.
Trabaja para democratizar tus datos
Los silos y la incapacidad de acceder fácilmente a los datos relevantes son problemas comunes de los equipos de datos y los usuarios comerciales. Demasiado lento, y los requisitos comerciales podrían haber cambiado. La democratización de datos a menudo se promociona como una solución en estos casos. Pero si bien parece fácil, la democratización de los datos requiere una gran cantidad de trabajo para obtener los resultados deseados y, a menudo, implica equilibrar la disponibilidad, la privacidad y la seguridad.
Por un lado, la democratización de los datos no significa hacer que todos los datos estén disponibles para todos, incluso si son usuarios internos de confianza. Un buen ejemplo serían los registros de prescripción de una organización de atención médica: ciertos medicamentos pueden recetarse solo para condiciones únicas y permitir el acceso general violaría la confidencialidad del paciente.
Según Ram Thilak de Inchcape, la democratización exitosa de los datos, la nube está indisolublemente unida a la democratización de los datos. Él dijo: «No hay mejor manera para que cualquier organización desbloquee ese valor e impulse la toma de decisiones a través de datos sin la nube y eso es una obviedad para cualquiera».
Impulse los datos desde arriba
Por mucho que nos guste, es posible que los usuarios no graviten hacia los datos sin un impulso desde arriba. Según Chong Yang Chan, director gerente de Qlik para ASEAN, las organizaciones deben impulsar el análisis con un enfoque de arriba hacia abajo, por parte de ejecutivos de nivel C que demuestren claramente que toman decisiones no con sus «corazonadas», sino a través de datos respaldados. .
“Para animar a la organización a hacer uso de un tablero, por ejemplo, el director ejecutivo debe solicitar pruebas de respaldo o puntos de datos del tablero antes de seguir adelante con una recomendación comercial”, dijo Chan.
Entonces, ¿cómo pueden las organizaciones medir el estado de su ciencia de datos? Chan tiene una sugerencia sobre cómo las organizaciones pueden realizar un seguimiento de su progreso: «Desde el momento en que se identifica un problema, ¿cuánto tiempo les toma a las partes interesadas obtener los conocimientos que necesitan de los datos?»
Paul Mah es el editor de DSAITrends. Ex administrador de sistemas, programador y profesor de TI, disfruta escribiendo código y prosa. Puedes localizarlo en [email protected].
Crédito de la imagen: iStockphoto/Jerome Maurice