El aprendizaje automático no siempre tiene que ser una tecnología abstrusa. La metodología multiparámetro e hiperparámetro de redes neuronales profundas complejas, por ejemplo, es solo un tipo de esta manifestación de computación cognitiva.
Hay otras variedades de aprendizaje automático (e incluso algunas que involucran redes neuronales profundas) en las que los resultados de los modelos, cómo se determinaron y qué complejidades los influyeron, son mucho más transparentes.
Todo depende de qué tan bien comprendan las organizaciones la procedencia de sus datos.
Comprender casi todo lo que sucedió con los datos de entrenamiento para los modelos, así como el encuentro con los modelos de datos de producción, es fundamental para explicar, refinar y mejorar sus resultados. Las organizaciones que lo hacen aumentan drásticamente el valor comercial que producen tales modelos.
Quizás lo más importante es que también promueven la equidad, la responsabilidad y la transparencia de esta tecnología, haciéndola más confiable y mejor para la sociedad en su conjunto.
“Es por eso que necesita una comprensión detallada que esté en sentido ascendente y descendente de lo que sucede con los datos, para poder realizar el aprendizaje automático de manera responsable en el futuro”, reconoció Joel Minnick, vicepresidente de marketing de Databricks.
Linaje de datos de catalogación
La información sobre los datos de entrenamiento y los datos de producción de los modelos puede incluir fuentes de datos, transformación, técnicas de integración específicas y más. Las soluciones de catálogo de datos logrados pueden capturar estos datos, en tiempo real, para que las organizaciones siempre puedan mirar hacia atrás a lo que sucedió para comprender cómo se están desempeñando los modelos. Por lo tanto, los científicos de datos pueden «obtener el contexto en torno a este conjunto de datos que voy a usar en mi modelo», explicó Minnick. “Sabes, ¿de dónde provienen estos datos? ¿Qué otros datos obtuvimos de él? ¿Cuándo se generó? Para que comprenda mucho mejor cómo debo usar estos datos”.
El linaje de datos se compone de metadatos, que los catálogos de datos se especializan en almacenar sobre conjuntos de datos. Los catálogos también permiten a los usuarios imputar etiquetas y otros descriptores como metadatos adicionales, algunos de los cuales son útiles para la procedencia de los datos y para establecer la confianza en los datos. Los efectivos lo hacen mientras se conectan a una variedad de plataformas, incluidas aquellas para científicos de datos, ingenieros de datos y usuarios finales, a través de lo que Minnick caracterizó como un «servicio impulsado por API».
Gobernanza de datos para la ciencia de datos
La trazabilidad mejorada sobre cómo los datos de entrenamiento y los datos operativos están afectando los resultados del modelo de aprendizaje automático extiende la procedencia de los datos al ámbito de la ciencia de datos. En consecuencia, esta dimensión del gobierno de datos se expande naturalmente a numerosas plataformas de ciencia de datos para crear e implementar estos modelos. “Seguro que se trata de tablas y archivos, pero también de poder gobernar cuadernos”, comentó Minnick. “Ser capaz de gobernar cuadros de mando. Estas son formas más modernas de producir y consumir datos”. Este sentimiento es particularmente cierto para los científicos de datos que construyen modelos en cuadernos, así como para aquellos que monitorean los resultados de sus salidas a través de tableros.
Transparencia clara
Aún así, simplemente obtener este linaje de datos en catálogos de datos que están conectados a un sólido conjunto de herramientas de ciencia de datos a través de API es solo un aspecto de la utilización transparente del aprendizaje automático. Emplear esta información para mejorar los resultados de los modelos implica calibrarlos de acuerdo con lo que se determina a través del linaje de datos. Por ejemplo, la trazabilidad detallada de cómo se manipularon los datos para los modelos permite a los científicos de datos «poder entender cómo puedo separar algunos datos si algunos de ellos son problemáticos», señaló Minnick.
Lógicamente, esos empleados podrían aplicar este conocimiento para ver por qué los tipos de datos específicos eran problemáticos, de modo que pudieran corregirlos o aumentar la precisión de los modelos eliminándolos por completo. Según Minnick, más organizaciones se están dando cuenta de este beneficio de aplicar el linaje de datos para modelar los resultados “en parte debido al aumento del aprendizaje automático y la IA dentro de todas las industrias en la actualidad. Cada vez es más frecuente. Cuando lanzamos nuestro producto AutoML el año pasado, uno de los términos que solíamos usar era caja de cristal. es el mismo tipo de idea [for data provenance].”
Consecuencias regulatorias y más
Las organizaciones también mejoran sus capacidades de cumplimiento normativo con la comprensión más segura de los resultados de los modelos de computación cognitiva adaptativa que proporciona el linaje de datos. Industrias como finanzas, atención médica y otras están altamente reguladas, lo que requiere que las empresas ilustren claramente cómo llegaron a las decisiones para sus clientes. La procedencia de los datos crea una hoja de ruta figurativa del viaje de los datos para construir modelos de aprendizaje automático y comprender sus resultados, lo cual es invaluable para demostrar realmente el cumplimiento a los reguladores.
Esta información también ayuda a las auditorías internas, lo que permite a las empresas darse cuenta de en qué áreas regulatorias son negligentes para que puedan repararlas y evitar violaciones. “Ser capaz de demostrar a los reguladores con esa información de linaje muy granular, y nuevamente, no solo a través de tablas, sino a través de todos los diferentes lugares en los que uso mis datos dentro de la organización en general, es muy importante”, afirmó Minnick. Cuando esta ventaja se combina con la propensión de la procedencia de los datos a aumentar la precisión del modelo de aprendizaje automático, es muy posible que este método pronto se convierta en una mejor práctica para implementar esta tecnología.
Sobre el Autor
Jelani Harper es una consultora editorial que presta servicios al mercado de la tecnología de la información. Se especializa en aplicaciones basadas en datos centradas en tecnologías semánticas, gobierno de datos y análisis.
Regístrese para recibir el boletín gratuito insideBIGDATA.
Únase a nosotros en Twitter: @InsideBigData1 – https://twitter.com/InsideBigData1