El arma secreta detrás de la IA de calidad: etiquetado de datos eficaz

En esta función de invitado especial, Carlos Meléndez, director de operaciones de Wovenware, analiza las mejores prácticas para «La tercera milla en el desarrollo de la inteligencia artificial», el enorme subsector del mercado de las empresas de etiquetado de datos, a medida que continúan ideando nuevas formas de monetizar este fenómeno que a menudo se considera aspecto tedioso del desarrollo de la IA. El artículo aborda esta tendencia y describe cómo no es realmente un mercado de productos básicos, pero puede comprender diferentes estrategias para obtener resultados exitosos. Wovenware es una empresa impulsada por el diseño con sede en Puerto Rico que ofrece inteligencia artificial personalizada y otras soluciones de transformación digital que crean un valor medible para los clientes de empresas privadas y gubernamentales en los EE. UU.

El crecimiento de la IA ha generado un enorme subsector de mercado y un creciente interés entre los inversores en el etiquetado de datos. El año pasado, las empresas especializadas en etiquetado de datos obtuvieron millones de dólares en financiamiento y continúan ideando nuevas formas de monetizar este aspecto a menudo considerado tedioso del desarrollo de la inteligencia artificial. Sin embargo, lo que puede verse como la tercera milla en el desarrollo de la IA, el etiquetado de datos, también es quizás la más crucial para las soluciones efectivas de IA.

En términos muy generales, el desarrollo de la IA se puede dividir en cuatro fases clave:

Fase 1: La fase de diseño, donde se identifica el problema, se diseña la solución y se definen los criterios de éxito.
Fase 2: La fase de recopilación de datos, donde se recopilan todos los datos necesarios para entrenar el algoritmo;
Fase 3: La fase de desarrollo, donde los datos se limpian y etiquetan y el algoritmo se desarrolla y entrena.

Fase 4: la fase de implementación, donde la solución se suelta para funcionar y luego se actualiza continuamente para mejorar

El etiquetado de datos no se crea igual

La tercera milla en el desarrollo de la IA es donde comienza la acción. Se necesitan cantidades masivas de datos para entrenar y refinar el modelo de IA; nuestra experiencia nos ha demostrado que se necesitan un mínimo de 10,000 puntos de datos etiquetados, y debe estar en un formato estructurado para probarlo y validarlo, y entrenar el modelo para identificar y comprender los patrones recurrentes. Las etiquetas pueden tener la forma de cuadros alrededor de los objetos, etiquetando elementos visualmente o con etiquetas de texto en imágenes o en una base de datos basada en texto que acompaña a los datos originales.

Una vez entrenado con datos anotados, el algoritmo puede comenzar a reconocer los mismos patrones en nuevos datos no estructurados. Para que los datos sin procesar tengan la forma que necesitan, se limpian (se corrigen los errores y se elimina la información duplicada); y etiquetado con su identificación adecuada.

Gran parte del etiquetado de datos es un proceso manual y laborioso. Se trata de grupos de personas que deben etiquetar las imágenes como «coches», o más específicamente, «coches blancos», o lo que sean los detalles específicos, para que el algoritmo pueda salir y encontrarlos. Como ocurre con muchas cosas que pueden llevar tiempo, las empresas de etiquetado de datos buscan una solución rápida a este proceso. Están recurriendo a sistemas automatizados para etiquetar e identificar conjuntos de datos. Si bien la automatización puede acelerar parte del proceso, debe mantenerse bajo control para garantizar que las soluciones de inteligencia artificial que toman decisiones críticas no sean defectuosas. Considere las ramificaciones de un algoritmo entrenado para identificar a los niños en el cruce de una intersección concurrida que no reconoce a los de cierta altura porque el conjunto de datos utilizado para entrenar el algoritmo no tenía datos sobre estos niños.

Dado que los datos son el elemento vital de una IA eficaz, no es de extrañar que los inversores estén viendo enormes oportunidades de crecimiento para el mercado. Las empresas de etiquetado de datos eficaces tienen una gran demanda a medida que las empresas buscan encontrar un camino más rápido hacia la transformación de la IA. Agregar y etiquetar datos no solo lleva meses, sino que los algoritmos efectivos mejoran con el tiempo, por lo que es un proceso constante. Pero al seleccionar una empresa de etiquetado de datos que automatice el proceso, los compradores deben tener cuidado. El etiquetado de datos aún no es un mercado de productos básicos y hay muchas formas de abordarlo. Tenga en cuenta lo siguiente al determinar cómo llevar a cabo su proceso de etiquetado de datos críticos:

Utilice datos personalizados. Aún existe una enorme ventaja competitiva al poseer sus propios conjuntos de datos privados de calidad, por lo que si selecciona un socio, asegúrese de que la calidad de los datos esté controlada y sepa si se utilizan datos sintéticos para enriquecer el conjunto de datos.
El etiquetado de datos eficaz requiere experiencia. Muchas empresas recurrirán a anotadores de fuentes colectivas o utilizarán personal con poca o ninguna experiencia, pero un buen etiquetado de datos requiere muy buena vista, además de habilidad. Un etiquetador de datos se vuelve mejor y más rápido con el tiempo y aprende cómo evitar falsos positivos debido a datos incorrectos.
La privacidad de los datos debe seguir siendo primordial. Dado que los datos de capacitación efectivos requieren mucha información de la empresa en muchos casos, las personas que realizan el etiquetado de sus datos deben estar bajo un acuerdo de confidencialidad con su empresa o proveedor de servicios.

Los etiquetadores de datos y los científicos de datos deben formar parte de un solo equipo. Es importante que un científico de datos que construya el algoritmo supervise el etiquetado de los datos para proporcionar control y garantía de calidad. Se asegurarán de que se esté capacitando en los mejores conjuntos de datos y de abordar las necesidades específicas del objetivo del proyecto de IA.
Encuentre un socio a largo plazo, no una fábrica de etiquetado de datos. Dado que la IA nunca es una y está lista, es importante entrenar constantemente su algoritmo para que funcione mejor. Seleccionar un socio que desarrolló el algoritmo original, que lo entienda mejor y pueda usar el mismo proceso para mejorarlo es crucial para mejorar continuamente la IA.
Automatice parcialmente cuando sea necesario. Si bien el etiquetado de datos automatizado puede ser bastante rápido, en ningún lugar es tan preciso o efectivo como el trabajo dirigido por humanos. La automatización parcial puede señalar a los etiquetadores de datos dónde están los objetos, de modo que solo necesiten segmentarlos. Liderar con inteligencia humana, aumentada por la automatización es siempre lo mejor.

A medida que los datos continúan convirtiéndose en el aceite que impulsa la inteligencia artificial efectiva, es fundamental que ponerlos en forma para el entrenamiento de algoritmos no se trate como una mercancía, sino que se le dé la atención que merece. El etiquetado de datos nunca puede ser una tarea única para todos, sino que requiere la experiencia, la personalización, la colaboración y el enfoque estratégico que dan como resultado soluciones más inteligentes.

Suscríbase al boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: @ InsideBigData1 – https://twitter.com/InsideBigData1