Saltar al contenido

Qué evitar al resolver problemas de clasificación de etiquetas múltiples

3 de diciembre de 2022

La inteligencia artificial se está convirtiendo rápidamente en el próximo gran avance en la eficiencia del lugar de trabajo. Estos modelos pueden leer, interpretar y encontrar soluciones a los problemas de muchas empresas. Una de las últimas tendencias es la clasificación de múltiples etiquetas, donde la IA puede asignar múltiples etiquetas a una entrada. Por ejemplo, podría etiquetar una foto por cada animal que pueda detectar en lugar de encontrar un solo elemento y enfocarse en eso. Tal capacidad puede reducir aún más la ya pequeña cantidad de errores que pueden cometer los algoritmos.

Sin embargo, este método tiene sus desafíos. Si está trabajando con un modelo con un problema de clasificación de etiquetas múltiples, existe la posibilidad de que se encuentre con algo que necesite arreglarse. Aquí hay algunos problemas comunes que puede encontrar y qué evitar al resolverlos.

1. Limpieza de datos

Siempre necesitará limpiar sus datos antes de enviarlos al modelo. Ingresar demasiadas variables irrelevantes o inconsistentes solo confundirá a la IA y hará que produzca conclusiones incorrectas. Por lo tanto, debe seguir un proceso de limpieza de datos consistente y preciso para garantizar que su algoritmo se mantenga eficiente y, quizás lo más importante, correcto.

Sin embargo, puede tener problemas durante la limpieza. Es posible que elimine accidentalmente información que pensó que era irrelevante o introduzca un error tipográfico que desconecte la IA. Cada uno de estos problemas disminuye la validez del conjunto de datos, creando falacias que pueden conducir a decisiones comerciales costosas.

Resolución de errores de limpieza de datos

La forma más sencilla de evitar y resolver cualquier problema que el equipo presente durante la limpieza de datos es seguir el proceso de limpieza al pie de la letra. Tómese su tiempo durante la inspección y el perfilado para evaluar realmente qué información es innecesaria o redundante. También puede usar esto para verificar dos veces los errores ortográficos que podrían generar confusión dentro del algoritmo.

Recomendado:  Aprovechando el aprendizaje automático para optimizar la adsorción de CO2

Además, no se apresure en el paso de verificación. Usted u otra persona podrían haber eliminado accidentalmente una entrada esencial, no eliminar datos irrelevantes o agregar espacios en blanco donde no era necesario. Considere esta parte del proceso como la más crítica para prevenir o solucionar cualquier error.

2. Incertidumbre de la etiqueta

Como puede imaginar, se pueden aplicar muchas etiquetas a un solo conjunto de datos. La nueva información puede tener atributos similares, pero la IA cree que justifica otro conjunto de etiquetas. Sin embargo, sabes que deberían pertenecer a la misma clasificación.

El algoritmo podría analizar un conjunto de solicitudes de empleo, haciendo que la observación del grupo de talentos sea mucho más rápida y sencilla. Ve a una persona que es un «excelente comunicador» y otra que promueve sus «rápidos tiempos de respuesta», creando diferentes etiquetas para cada uno. Tener demasiadas clasificaciones anula el propósito de la IA y vuelve a complicar su trabajo.

Evitar problemas de incertidumbre de etiquetas

Este problema significa que el modelo se está volviendo demasiado específico. Debido a que es una máquina, toma la ruta literal con más frecuencia que la implícita. El ejemplo anterior mostró dos instancias de personas que decían lo mismo que el modelo malinterpretó como diferente. Para reducir las posibilidades de este problema, deberá entrenar más a la IA.

Necesita entender las correlaciones entre lo que significan ciertas palabras. Puede requerir un aprendizaje más profundo sobre la dependencia de etiquetas condicional e incondicional, lo que puede ayudarlo a reconocer cuándo las palabras o las etiquetas significan esencialmente lo mismo. Enseñar el algoritmo de esta manera ayudará a reducir la cantidad de clasificaciones que crea, lo que le permitirá mantenerse lo más eficiente posible. En este proceso, evite que la IA se vuelva demasiado general y, al mismo tiempo, asegure su especificidad: la dependencia de la etiqueta puede ayudar con eso.

Recomendado:  Red Hat acumula software para contener IA en plataformas Nvidia

3. Desequilibrio de datos

El desequilibrio de datos puede ser un problema generalizado con la clasificación multietiqueta. Cuando el modelo se enfoca en instancias superiores de una etiqueta, no aprenderá cómo interpretar otras entradas. Esto entrenará negativamente su modelo y hará que sus resultados sean menos precisos.

Por ejemplo, digamos que un banco está tratando de encontrar casos de fraude. El algoritmo analiza la información y concluye que el 98% de las transacciones fueron genuinas y el 2% fueron fraudulentas. El número mayor es la clase mayoritaria y el menor es la minoría. Tener una mayoría tan grande puede crear un sesgo dentro de la IA, lo que hace que sea menos probable, en este ejemplo bancario, detectar instancias reales de fraude.

Resolución de problemas de desequilibrio de datos

Este problema también requerirá algo de reentrenamiento. Puede comenzar entrenando en la distribución real, pero es posible que también deba considerar el proceso de reducción de muestreo y aumento de peso.

Para un ejemplo más sencillo, considere un conjunto de una instancia de fraude por cada 200 compras. Podría reducir la muestra de esa clase mayoritaria en 20, por lo que el saldo se convierte en un fraude para 10 transacciones genuinas. Luego, súbalo por 20, lo que le da a la clase mayoritaria una mayor importancia para el modelo. Este proceso le permite a la IA ver a la clase minoritaria con más frecuencia al mismo tiempo que aborda la urgencia de la mayoría. Evite el balanceo incorrecto utilizando la proporción adecuada de reducción de muestreo a aumento de peso.

Recomendado:  Mercado de inteligencia artificial y aprendizaje automático 2022 Tecnologías de tendencia, planes de desarrollo, crecimiento futuro y regiones geográficas hasta 2028

Haga que la clasificación multietiqueta funcione sin problemas

La inteligencia artificial para la clasificación multietiqueta ayuda a optimizar muchos aspectos del lugar de trabajo, desde el reclutamiento hasta el marketing. Sin embargo, es posible que deba ajustar el modelo en el camino. Esté atento a estos problemas típicos para evitar los escollos comunes de resolverlos.

Sobre el Autor

April Miller es una escritora sénior de TI y ciberseguridad para la revista ReHack que se especializa en inteligencia artificial, big data y aprendizaje automático mientras escribe sobre temas en todo el ámbito de la tecnología. Puede encontrar su trabajo en ReHack.com y siguiendo la página de Twitter de ReHack.

Regístrese para recibir el boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: https://twitter.com/InsideBigData1

Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/

Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW