2021 Tendencias en la ciencia de los datos: Todo el espectro de la IA

Como disciplina empresarial, la ciencia de los datos es la antítesis de la Inteligencia Artificial. Una es un campo sin límites en el que la creatividad, la innovación y la eficacia son las únicas limitaciones; la otra está sujeta a innumerables restricciones en lo que respecta a la ingeniería, el gobierno, los reglamentos y el proverbial balance final.

Sin embargo, el valor comercial tangible alabado por las aplicaciones empresariales de la IA casi siempre proviene de la ciencia de los datos. La tendencia de ModelOps que encabeza la computación cognitiva de hoy en día tiene una correlación vital y distintiva dentro del ámbito de los científicos de datos.

Mientras que ModelOps se centra en la solidificación de la consistencia operativa de todas las formas de IA -desde su base de conocimientos hasta su base estadística- la ciencia de los datos es la fuerza tácita que sustenta este movimiento mediante la ampliación de los tipos de datos que participan en estas empresas.

O, como dijo el CEO de Stardog, Kendall Clark, «Si las compañías quieren ganar con la ciencia de los datos, deben tomar en serio la amplitud y diversidad de todos los tipos de datos, no sólo los que son susceptibles de técnicas estadísticas».

Al aprovechar todo el espectro de datos de que disponen, las organizaciones pueden explorar los límites de la ciencia de los datos para dominar la creación inteligente de características, la explicabilidad, la preparación de los datos, la normalización de los modelos y la selección, casi todo lo cual conduce a ventajas palpables para los despliegues empresariales de la IA.

Generación de características inteligentes

Lo que Clark llamó datos de aprendizaje de máquinas «perceptivos o visibles por ordenador» invoca directamente la base estadística de la IA. La construcción de modelos de aprendizaje de máquinas se basa en la identificación de características que mejoran la precisión de los modelos para aplicaciones de visión artificial, por ejemplo, para supervisar los defectos en un proceso de línea de montaje en la Internet industrial. Según Gul Ege, Director Superior de Análisis Avanzado, Investigación y Desarrollo de SAS, «La creación de características inteligentes proviene de lo que es importante para el dominio y de cómo procesamos estos datos». Algunos de los numerosos métodos para enriquecer la identificación de características implican:

Picos y distancias: Ege esbozó un caso de uso de un dispositivo de electrocardiograma en el que los datos de flujo vienen en patrones cíclicos. Por ejemplo, al discernir las características para ver si los pacientes padecen enfermedades cardíacas específicas, «se aplica una reducción de ruido, y luego se observan los patrones cíclicos y se aplica el análisis para encontrar los picos y medir la distancia entre ellos», explicó Ege. «La característica es la distancia entre los picos».
Consultas simplificadas: Los modelos de eventos de entidades en configuraciones gráficas que soportan la base de conocimientos de la IA simplifican enormemente el esquema -y acortan la longitud de las consultas para atravesarlas- para representar un sinfín de eventos temporales relativos a entidades críticas como clientes, pacientes o productos. Según el director general de Franz, Jans Aasman, «Si tienes un gráfico complejo sin modelos de eventos de entidades, entonces si quieres extraer características para el aprendizaje automático, tienes que escribir consultas complejas. Con este enfoque, escribes consultas simples para sacar los datos».
Incluye bases de datos: La utilización de bases de datos específicas para la generación de características es un desarrollo emergente de la ciencia de los datos. Clark mencionó un caso de uso de un vehículo autónomo que involucraba la visión por computadora en el que «los rasgos se agrupan en escenas y son representados o representados gráficamente». Las escenas pueden consistir en otras escenas; los rasgos se extraen mediante enfoques estadísticos y basados en reglas. Las escenas representan escenarios de conducción específicos como los peatones que cruzan la calle. Para el vehículo, «la tarea es entender cuál es la respuesta apropiada en esa situación», indicó Clark. «Para la visión por ordenador esto es más o menos una selección de características, pero están dispuestas espacialmente y temporalmente».

Incrustación de gráficos

Para los datos que cambian rápidamente (como las transacciones de comercio electrónico, las recomendaciones o las aplicaciones de Internet de las cosas), la identificación precisa de las características depende de la reducción de ruido a la que se refiere Ege. Los científicos de los datos emplean técnicas de aprendizaje no supervisadas, similares a la agrupación, para reducir las variables de los modelos de capacitación. Los enfoques de reducción de la dimensionalidad como el Análisis de Componentes Principales (PCA) «pueden separar el fondo de las partes móviles en un vídeo, o para cualquier matriz, realmente», especificó Ege.

La incrustación de gráficos está ganando fuerza para realizar este y otros trabajos críticos de la ciencia de los datos para «hacer predicciones e inferencias usando la naturaleza del gráfico para entender las similitudes entre cosas como los productos o las personas», denotó el CTO de Cambridge Semantics Sean Martin. Las ventajas de esta aplicación de los gráficos de conocimiento incluyen:

Disminución del tiempo de preparación de los datos: La incrustación de gráficos abrevia las elaboradas tuberías que monopolizan el tiempo de preparación de los científicos de datos, en lugar de analizarlos. La transferencia de datos a herramientas como Python para este trabajo de aprendizaje de la máquina es una programación intensiva y que consume mucho tiempo. Pero, cuando se realiza en una base de datos de gráficos «se puede hacer mucho más rápido, de forma más iterativa, que terminar teniendo que seguir extrayendo datos del gráfico y en las tuberías», mantuvo Martin.
Soporte de la matriz: Los datos deben ser vectorizados para su uso en modelos de aprendizaje de máquinas. Los gráficos con soporte de matriz permiten a las organizaciones «trasladar los datos de una representación gráfica a matrices», comentó Martin. Posteriormente, pueden realizar funciones como PCA «que permite ver las correlaciones entre las cosas; cómo se correlacionan las diferentes partes de los conjuntos de datos», comentó Martin.
Ingeniería de características granulares: Los gráficos también son ideales para introducir los resultados de la analítica de aprendizaje por máquina -como la agrupación- para refinar las características y otros aspectos de los modelos de entrenamiento. En este sentido, «lo que funciona mejor con los gráficos es tomar el resultado de lo aprendido, especialmente para el aprendizaje no supervisado, y volver a ponerlo en el gráfico», reconoció Aasman.

Explicabilidad

La cuestión de la explicabilidad, que es contigua a la interpretabilidad, el sesgo del modelo y la IA justa, todavía tiene el potencial de comprometer cualquier empresa que valga la pena de los despliegues de IA estadística. No obstante, al acoplar el lado estadístico de la IA con el lado de los conocimientos, las organizaciones pueden superar sistemáticamente este obstáculo. «La crisis de explicabilidad realmente afecta a la capacidad de la gente para confiar en estos sistemas», observó Clark. «La única solución real a la crisis de explicabilidad son las técnicas mixtas que complementan los modelos estadísticos con la lógica o los formalismos basados en reglas, así que sea lo que sea que la computadora esté haciendo para obtener la respuesta, la explicación de esa respuesta es en términos que sean inteligibles para la gente». Una de las principales tareas de los científicos de datos en el próximo año, por lo tanto, es aumentar el aprendizaje de la máquina con la base de conocimientos de la IA, tipificada por el aprendizaje basado en reglas.

Haciendo esto se expandirán los tipos de datos y las técnicas que la ciencia de los datos debe llegar a abarcar para incluir los datos descritos por Clark como «conceptuales o categóricos; se trata de los conceptos o categorías que existen entre las personas». La utilidad comercial de apalancar estos datos con reglas lógicas facilita la explicabilidad con aplicaciones prácticas de aprendizaje automático. «La mayoría de los datos de negocios no vienen realmente en ese perceptible o visible por computadora [variety]…es más categórico», reveló Clark. «Como, qué es un préstamo arriesgado, o qué es una compra arriesgada, o es esta persona una amenaza interna para una organización desde el punto de vista del riesgo y el análisis. O, ¿cuál es la parte de nuestra cadena de suministro que está en mayor riesgo si hay un terremoto en Chile?» El análisis de estos escenarios con IA estadística junto con el razonamiento simbólico, la inferencia semántica y las reglas puede emitir la tan necesaria explicabilidad para las organizaciones y los reguladores por igual.

Estándares del modelo

Aparte de enfoques como el de Bosque al azar o técnicas de ensamblaje como el aumento de gradientes, los resultados de la red neural de múltiples capas han demostrado ser los más arduos de explicar, especialmente con el cálculo y la escala de aprendizaje profundo. Las organizaciones pueden estandarizar estos modelos y otros para maximizar su despliegue teniendo en cuenta consideraciones para:

Intercambio de redes neuronales abiertas (ONNX): Según el jefe de datos científicos de la SAS, Wayne Thompson, «ONNX es un estándar medioambiental para el intercambio de modelos de aprendizaje profundo». El ámbito de uso de ONNX es amplio; uno podría desarrollar un modelo en un marco de trabajo propietario y luego «alguien más puede traerlo al código abierto y usar mi modelo como peso preliminar y entrenarlo más para su entorno», señaló Thompson.

Autoajuste: Los científicos de los datos pueden acelerar la potencialmente engorrosa tarea de ajustar los parámetros de los modelos de aprendizaje de las máquinas optando por «construir algoritmos que tengan muy pocos parámetros de ajuste y también por defecto para añadir un valor óptimo», reveló Ege. «Ponemos otro algoritmo para ver cuál es el parámetro de ajuste óptimo e intentamos no tener un millón de parámetros». Este método es efectivo para modelos de factor de forma más pequeños en dispositivos de IO, por ejemplo.
Redes neuronales recurrentes (RNNs): Los RNNs funcionan bien para la previsión y el análisis de textos. «Eso es porque miran una secuencia de puntos de datos», añadió Thompson. «Una conversación es una muestra de palabras habladas que tienen una secuencia».
Redes neuronales convolucionales (CNN): Uno de los casos de uso predominante de las CNN es la visión por computadora. «Pueden ver mejor que los humanos hoy en día», dijo Thompson. «Así que sí, son muy buenos para el análisis de imágenes y hay una gran cantidad de casos de uso para eso».

En la hoja de ruta

La ciencia de los datos dará cada vez más prioridad a la integración de todo el espectro de datos y métodos de IA, incluyendo aspectos de su base estadística y de conocimientos, en los despliegues diarios en toda la empresa. La utilización de toda la gama de técnicas e información a disposición de los científicos de datos mejorará sustancialmente la generación de características, la preparación de datos y la explicabilidad.

Sobre el autor

Jelani Harper es un consultor editorial que presta servicios al mercado de la tecnología de la información. Se especializa en aplicaciones basadas en datos centradas en tecnologías semánticas, gobierno de datos y análisis.

Suscríbete al boletín de noticias gratuito de InsideBIGDATA.