Buscando una forma de evitar que se engañen los modelos de audio para el aprendizaje automático de IA — ScienceDaily

Han surgido advertencias sobre la falta de fiabilidad de las métricas utilizadas para detectar si los humanos pueden percibir una perturbación de audio diseñada para engañar a los modelos de IA. Investigadores de la UPV/EHU-Universidad del País Vasco demuestran que las métricas de distorsión utilizadas para detectar perturbaciones intencionadas en las señales de audio no son una medida fiable de la percepción humana, y han propuesto una serie de mejoras. Estas perturbaciones, diseñadas para ser imperceptibles, pueden utilizarse para provocar predicciones erróneas en inteligencia artificial. Se aplican métricas de distorsión para evaluar qué tan efectivos son los métodos para generar tales ataques.

La inteligencia artificial (IA) se basa cada vez más en modelos de aprendizaje automático, entrenados con grandes conjuntos de datos. Asimismo, la interacción humano-computadora depende cada vez más de la comunicación del habla, principalmente debido al notable desempeño de los modelos de aprendizaje automático en tareas de reconocimiento de voz.

Sin embargo, estos modelos pueden ser engañados por ejemplos «contradictorios», en otras palabras, entradas perturbadas intencionalmente para producir una predicción incorrecta sin que los humanos noten los cambios. “Supongamos que tenemos un modelo que clasifica el audio (por ejemplo, el reconocimiento de comandos de voz) y queremos engañarlo, es decir, generar una perturbación que maliciosamente impida que el modelo funcione correctamente. Si una señal se escucha correctamente, una persona es capaz de observe si una señal dice ‘sí’, por ejemplo. Cuando agregamos una perturbación adversaria, seguiremos escuchando ‘sí’, pero el modelo comenzará a escuchar ‘no’, o ‘girar a la derecha’ en lugar de a la izquierda o cualquier otro comando que no quieren ejecutar», explica Jon Vadillo, investigador del Departamento de Ciencias de la Computación e Inteligencia Artificial de la UPV/EHU.

Esto podría tener “implicaciones muy graves a nivel de aplicación de estas tecnologías a problemas del mundo real o muy sensibles”, añade Vadillo. No está claro por qué sucede esto. ¿Por qué un modelo que se comporta de manera tan inteligente de repente deja de funcionar correctamente cuando recibe señales incluso ligeramente alteradas?


Recomendado: ¿Qué es el Big data?.


Engañando al modelo usando una perturbación indetectable

“Es importante saber si un modelo o un programa tiene vulnerabilidades”, agregó el investigador de la Facultad de Informática. «En primer lugar, investigamos estas vulnerabilidades, para verificar que existen, y porque ese es el primer paso para solucionarlas». Si bien mucha investigación se ha centrado en el desarrollo de nuevas técnicas para generar perturbaciones antagónicas, se ha prestado menos atención a los aspectos que determinan si los humanos pueden percibir estas perturbaciones y cómo son estos aspectos. Este problema es importante, ya que las estrategias de perturbación antagónicas propuestas solo representan una amenaza si los humanos no pueden detectar las perturbaciones.

Este estudio ha investigado hasta qué punto las métricas de distorsión propuestas en la literatura para ejemplos de audio contradictorios pueden medir de forma fiable la percepción humana de las perturbaciones. En un experimento en el que 36 personas evaluaron ejemplos contradictorios o perturbaciones de audio de acuerdo con varios factores, los investigadores demostraron que «las métricas que se utilizan por convención en la literatura no son completamente sólidas ni confiables. En otras palabras, no representan adecuadamente la percepción auditiva de los humanos, puede que te digan que una perturbación no se puede detectar, pero luego cuando la evaluamos con humanos, resulta que es detectable, por lo que queremos advertir que debido a la falta de confiabilidad de estas métricas , el estudio de estos ataques de audio no se está haciendo muy bien”, dijo el investigador.

Además, los investigadores propusieron un método de evaluación más robusto que es el resultado del «análisis de ciertas propiedades o factores en el audio que son relevantes al evaluar la detectabilidad, por ejemplo, las partes del audio en las que una perturbación es más detectable». .» Aún así, “este problema sigue abierto porque es muy difícil encontrar una métrica matemática que sea capaz de modelar la percepción auditiva. Dependiendo del tipo de señal de audio, probablemente se requerirán diferentes métricas o se tendrán que considerar diferentes factores”. Lograr métricas generales de audio que sean representativas es una tarea compleja”, concluyó Vadillo.

Fuente de la historia:

Materiales proporcionados por Universidad del pais vasco. Nota: el contenido se puede editar por estilo y longitud.