El aprendizaje automático supervisado y no supervisado son buenas formas de detectar amenazas. Pero cual es la diferencia?
Karen Roby de TechRepublic habló con Chris Ford, vicepresidente de producto de Threat Stack, sobre el aprendizaje automático supervisado y no supervisado. La siguiente es una transcripción editada de su conversación.
VER: Kit de contratación: Programador de videojuegos (TechRepublic Premium)
Christopher Ford: El aprendizaje supervisado y no supervisado son técnicas que ayudan a facilitar diferentes casos de uso dentro del ámbito del aprendizaje automático. Como saben los espectadores, el aprendizaje automático se utiliza para obtener información valiosa a partir de conjuntos de datos. O está organizando datos o haciendo predicciones sobre los datos. Yo diría que la diferencia crucial entre el aprendizaje no supervisado y el aprendizaje supervisado es que el primero, el aprendizaje no supervisado, es más fácil de comenzar porque no requiere datos etiquetados.
En el mundo del aprendizaje automático, los datos etiquetados son datos que usted, como ser humano, analiza y describe a su sistema de aprendizaje automático. El aprendizaje no supervisado no requiere eso. Generalmente, el aprendizaje no supervisado se utiliza para inferir la estructura de un conjunto de datos que le proporcionas. El aprendizaje no supervisado tiene sus raíces en la ciberseguridad, que es mi espacio, en la detección de anomalías. Utiliza técnicas de agrupación en clústeres para examinar los datos y agruparlos en gran medida para responder a la pregunta: si este comportamiento es normal o anómalo.
El aprendizaje supervisado, por otro lado, es como comenzar con la respuesta. En ese sentido, el aprendizaje supervisado requiere datos etiquetados y muchos de ellos. Resulta que los algoritmos de aprendizaje supervisado son algo más simples que el aprendizaje no supervisado. Pero el verdadero desafío en el uso del aprendizaje supervisado es que hay una escasez, o una falta, de datos etiquetados. Necesita muchos datos y necesita que estén bien etiquetados para que el aprendizaje supervisado funcione.
Aprendizaje supervisado, puede ser muy poderoso ya que le permite hacer clasificación. Me complacerá hablar sobre algunas de las aplicaciones para el aprendizaje no supervisado y el aprendizaje supervisado en ciberseguridad. Pero con el aprendizaje supervisado, puede realizar la clasificación, pero también puede hacer predicciones sobre los datos. Como creo que pronto discutiremos cómo hacer predicciones sobre los datos, creemos que es la próxima frontera en términos de identificación de riesgos en su infraestructura.
VER: Transformación digital: una guía de CXO (PDF gratuito) (TechRepublic)
Karen Roby: Habla un poco más sobre el aprendizaje automático y la seguridad.
Christopher Ford: El aprendizaje automático no es nuevo para la ciberseguridad, en primer lugar. Puede ser muy poderoso. Ahora, creo que desde finales de los 80, principios de los 90 en realidad, las técnicas de aprendizaje sin supervisión se han utilizado en una variedad de aplicaciones como la detección de intrusiones, ya sea detección de intrusiones basada en la red o detección de intrusiones basada en el host. Cuando se aplica el aprendizaje no supervisado a esos problemas, básicamente lo que está haciendo es decir si esta conexión de red o el comportamiento del usuario es bueno o malo.
Lo bueno contra lo malo es una pregunta difícil de responder. Es más apropiado decir normal versus inusual o normal versus anormal. El aprendizaje no supervisado se utilizó durante muchos, muchos años y todavía se utiliza en ese tipo de aplicaciones. El aprendizaje supervisado cobró importancia como una herramienta para los profesionales de la seguridad en áreas como la clasificación. El aprendizaje supervisado se utiliza para cosas como filtrado de URL, identificación de spam, antivirus. Puede ser muy eficaz en esos casos de uso.
Karen Roby: Chris, cuando hablamos sobre las mejores prácticas y para incorporar el aprendizaje automático en una estrategia más grande, una estrategia general, ¿cómo sería y qué tipo de consejo puedes dar?
Christopher Ford: Primero comenzaré con los desafíos que creo que enfrentan ambas tecnologías y hacia dónde creo que nos dirigimos. Luego tengo algunos consejos, prácticamente hablando, para alguien que quiera iniciarse con algunas de estas tecnologías. En primer lugar, el aprendizaje automático está destinado a automatizar muchos procesos intensivos en humanos. Al responder una pregunta buena o mala, a menudo no queda claro qué es bueno o malo.
Si habla de cosas como un virus o una conexión, puede ser más sencillo. Pero a medida que cambia la infraestructura, a medida que cambia la forma en que desarrollamos software, el mundo se ha vuelto increíblemente complejo, estratificado y muy dinámico. Ahora tiene cargas de trabajo que, en algunos casos, duran unos segundos. Es esa naturaleza efímera y esa complejidad lo que hace que sea difícil decir: «Este comportamiento es bueno» o «Este comportamiento es malo».
Incluso respondiendo a la pregunta, «¿Es esto normal o no?» realmente no le da una gran idea de si existe o no una amenaza activa o un riesgo. Me gusta decir que el comportamiento normal de una organización podría considerarse bastante malo para otra organización, y algo que es inusual en el entorno de un cliente, puede ser inusual, pero puede que no sea dañino. En este momento, el uso del aprendizaje no supervisado para la detección de anomalías es muy general.
Como analista de seguridad, aún terminas con muchos descubrimientos. Ese es el verdadero desafío. El aprendizaje supervisado, por otro lado, como dije antes, puede ser muy efectivo para hacer clasificaciones, pero la disponibilidad de buenos datos etiquetados a escala para entrenar sus modelos para identificar ciertos comportamientos, simplemente no está disponible todavía. En Threat Stack vemos que el mercado se dirige hacia la combinación de ese tipo de técnicas, aprendizaje no supervisado y aprendizaje supervisado.
VER: Cómo hacer aprendizaje automático sin un ejército de científicos de datos (TechRepublic)
Piense en ello como una detección en profundidad. Escuchas a la gente hablar de «defensa en profundidad». Esto es detección y profundidad. Ambos tienen sus puntos fuertes, pero es realmente cuando los pones juntos que puedes sacar algo significativo de ellos. Recuerde que hablé sobre la decisión que está tomando entre lo bueno y lo malo, lo inusual o lo normal. Lo que vemos como la siguiente capa en nuestra estrategia de detección en profundidad es: «Está bien, ¿fue predecible o no?»
Si ve un comportamiento y responde la pregunta, «No podríamos haber predicho eso», entonces eso para nosotros es una señal de que hay algo extremadamente inusual, que no es normal para usted y representa una cantidad significativa de riesgo. Abogamos por una combinación de mecanismos de detección, clasificación, agrupación y regresión para realizar predicciones. Esas predicciones te dicen: «Oye, ¿este comportamiento es algo que razonablemente podríamos haber predicho basándonos en lo que ya hemos visto?»
Si está buscando comenzar con todo esto, tengo algunas precauciones y algunas recomendaciones. La precaución, en primer lugar, es ser escéptico. El aprendizaje automático tiene muchos rumores y se lo merece, pero el aprendizaje automático a menudo promete magia. Sería escéptico con las soluciones que prometen brindarle una detección completa, reducir la cantidad de hallazgos que debe examinar en un día, porque esas cosas a veces pueden estar en desacuerdo. Nos gusta decir que es como cortar los cables de la luz de verificación del motor. Ciertamente no tendrás esa luz molesta, pero eso no significa que no haya problemas que debas estar viendo. Sea escéptico.
Pero una vez que haya dicho: «Está bien, quiero invertir en aprendizaje automático como una forma de identificar el riesgo», entonces buscaría, en primer lugar, soluciones que estén disponibles comercialmente o si desea implementar las suyas propias. , piense en combinar los mecanismos de detección de manera que funcionen juntos. Si tiene la inclinación de invertir en su propia solución de aprendizaje automático, diría que tal vez reconsidere eso primero. Hay muchas buenas soluciones listas para usar que tienen modelos ya construidos que pueden aprovechar cantidades masivas de datos que están recopilando entre los inquilinos de su plataforma. Suele ser un buen punto de partida.
Pero si desea invertir en él por su cuenta, le diría que no se olvide de la ingeniería de datos. Hablamos mucho sobre ciencia de datos, porque creo que eso es un poco más sexy. Pero la ingeniería de datos es absolutamente fundamental. Si desea hacer cosas como predicciones y clasificaciones a escala, debe asegurarse de tener muchos datos, que estén bien preparados para el aprendizaje automático y que estén etiquetados correctamente. La ingeniería de datos realmente te obliga a identificarte, oye, ¿cuál es mi objetivo? ¿Qué estoy tratando de sacar de esto?
La otra cosa, lo último que diría sobre las soluciones de aprendizaje automático disponibles comercialmente o las que usted mismo construye es que el contexto realmente importa. Cuidado con el aprendizaje automático de la caja negra. Si no está seguro de por qué un modelo en particular, digamos que está utilizando el aprendizaje profundo para identificar el riesgo, si no sabe por qué un modelo muestra algo, es realmente difícil, entonces ir e investigarlo. Elija modelos que sean fácilmente explicables para que sepa realmente por qué la técnica o la tecnología están surgiendo riesgos.
Es esa transparencia sobre cómo funciona el modelo lo que finalmente le permite ajustar ese modelo también porque cada organización es diferente. Busque soluciones que le permitan recibir información de los humanos o aprender con el tiempo para comenzar a establecer este círculo virtuoso. Cuantos más datos capture, más hallazgos genere, más información reciba de las personas que están observando esos hallazgos, mejor será su sistema con el tiempo.
Suscríbete a TechRepublic’s Canal de Youtube para obtener la información técnica más reciente y consejos para profesionales de negocios.