Saltar al contenido

5 preguntas para Julius Černiauskas, director ejecutivo de Oxylabs – Center for Data Innovation

31 de mayo de 2023

El Centro de Innovación de Datos habló con Julius Černiauskas, CEO de Oxylabs. Oxylabs es un proveedor líder de redes proxy y soluciones de recopilación de datos que recopila datos alternativos a través del web scraping. Černiauskas habló sobre los usos potenciales de los datos alternativos, el raspado web como herramienta para las empresas de comercio electrónico y cómo la IA generativa puede cambiar la recopilación y el procesamiento de datos.

Beca Trate: ¿Qué son los datos alternativos y cuáles son sus beneficios?

Julius Černiauskas: La respuesta está en el término mismo: los datos alternativos son todo lo que no son datos tradicionales. Este último es bien conocido por la mayoría de nosotros y puede incluir estadísticas oficiales del gobierno, estados financieros de empresas, presentaciones públicas, comunicados de prensa, conjuntos de datos proporcionados por ONG u organizaciones comerciales, etc. A menudo se publica a intervalos regulares y está sujeto a regulaciones específicas. .

Por el contrario, los datos alternativos están dispersos por Internet y vienen en múltiples formatos. Por lo general, no está estructurado y debe extraerse con la ayuda de scripts. Los ejemplos más comunes de datos alternativos son imágenes satelitales, información de transacciones de tarjetas de crédito y datos web públicos adquiridos mediante herramientas de raspado. Puede ser utilizado para la investigación creativa tanto por empresas como por instituciones gubernamentales. Por ejemplo, el Banco de Japón usó tendencias de recreación y venta minorista basadas en el gasto de tarjetas de crédito para evaluar la actividad económica en ciertas áreas.

Hoy, la industria de datos alternativos tiene un valor de casi $ 7 mil millones. El principal impulsor de la ‘revolución’ de los datos alternativos es la digitalización de los negocios y los avances en las tecnologías de web scraping. Big data ha sido un tema candente durante años, pero fue web scraping lo que desbloqueó su poder al utilizar datos alternativos para obtener información comercial competitiva, investigación investigativa, ciencia y otros fines.

Se pueden obtener numerosos beneficios de los datos alternativos. En primer lugar, se puede extraer en tiempo real, a diferencia de los datos tradicionales que se actualizan lentamente y, por lo general, pintan una imagen de algunos eventos pasados. Esta característica de los datos alternativos es especialmente importante para las empresas de servicios financieros y los inversores. Además, los datos alternativos pueden proporcionar información completamente nueva. Abre nuevas formas para que las empresas obtengan una ventaja competitiva a través de una visión más completa del mercado y decisiones mejor informadas.

Los casos de uso de datos alternativos se pueden entender mejor a través de ejemplos. Ya he mencionado BOJ, pero existen muchos otros. Los datos como los espacios de estacionamiento vacíos pueden ayudar a predecir el desempeño del minorista. El análisis del sentimiento de los inversores ofrece un vistazo a una señal de movimiento del mercado. Los datos de movilidad se pueden utilizar para evaluar la actividad económica, etc. Una encuesta reciente mostró que las organizaciones financieras clasifican el web scraping, un método alternativo de adquisición de datos, como uno de los más impactantes en la generación de ingresos.

Recomendado:  Estado y perspectiva del mercado global de Big Data marítimo 2021-2026 Análisis detallado de la industria del impacto de Covid-19 en el mercado 2026

Precio: ¿Cómo pueden las empresas de comercio electrónico utilizar el web scraping para mejorar la experiencia de compra?

Cerniauskas: La industria del comercio electrónico es uno de los mayores usuarios de web scraping. Una investigación reciente de Oxylabs reveló que más del 82 % de las organizaciones de comercio electrónico utilizan web scraping para recopilar datos externos para la toma de decisiones.

La industria del comercio electrónico utiliza datos alternativos para estudios de mercado, análisis de la competencia, evaluación comparativa de precios, etc. La extracción de datos web públicos permite a estas empresas comprender el sentimiento del consumidor, idear tácticas creativas de personalización y optimizar su surtido. El web scraping abre una cantidad colosal de información y hace posible el flujo de datos en tiempo real, lo que significa que las organizaciones pueden extraer información en el momento en que aparece en línea.

Hablando de la experiencia de compra, una forma en que el web scraping puede mejorarla es optimizando el surtido. Al raspar los principales mercados y sitios de la competencia, las empresas de comercio electrónico pueden determinar qué productos están de moda o se están agotando y qué productos, por otro lado, son menos populares. También pueden obtener ideas para un surtido adicional si ciertos productos solo los venden los competidores.

El web scraping también puede potenciar el análisis de sentimientos. Al recopilar reseñas públicas, comentarios y menciones de marca, las empresas minoristas pueden comprender los gustos, las necesidades y los puntos débiles de los clientes, y adaptar su surtido y estrategia de marketing en consecuencia. Además, el análisis de sentimientos puede mostrar las tendencias en ciertas audiencias, lo que permite a la empresa validar nuevas ideas comerciales u obtener información sobre cómo ciertas decisiones afectaron las emociones de los consumidores sobre la marca. Por supuesto, al hacer esto, las empresas primero deben consultar con profesionales legales y cumplir con todas las regulaciones de datos personales y privados.

En resumen, si se utilizan adecuadamente, los datos alternativos recopilados en línea pueden traducirse en mejores relaciones entre empresas y consumidores y tácticas de personalización que toman en cuenta no solo las tendencias históricas de comportamiento (que no necesariamente muestran lo que le interesa al consumidor ahora), sino también el contexto más amplio en el que ocurren las decisiones de compra de los consumidores.

Recomendado:  Por qué Big Data Analytics para la sostenibilidad impulsará cambios transformadores en el sector industrial

tratar: ¿Cómo puede el web scraping agilizar y abordar las reclamaciones por infracción de derechos de autor o falsificación en los mercados en línea?

Černiauskas: Web scraping ya se utiliza ampliamente para combatir varios tipos de fraude en línea, desde la infracción de los derechos de propiedad intelectual hasta la falsificación. Como los vendedores ilegales y los fabricantes de productos falsos proliferan rápidamente, ya no es posible monitorearlos y encontrarlos manualmente. El software de raspado, por otro lado, puede manejar miles de solicitudes por segundo, lo que permite a las empresas monitorear continuamente los mercados en línea, los motores de búsqueda y otros sitios. En lugar de rastrear individualmente a los comerciantes no autorizados, hoy en día las empresas pueden monitorear la presencia en línea de la marca a gran escala y en tiempo real.

Como la mayoría de los falsificadores utilizan palabras clave descriptivas específicas, los raspadores web rastrean miles de páginas y listados de productos allí, buscando varias combinaciones de palabras clave. Por lo general, es la marca o el nombre del producto con descripciones como «barato», «mayorista», «distribuidor», «como el original», etc. Las imágenes también se pueden usar para identificar productos ilegales junto con las palabras clave. Después de encontrar listados ilegítimos y recuperar automáticamente la evidencia, las marcas pueden presentar quejas de derechos de autor y solicitar al mercado, al motor de búsqueda o a algún otro sitio que elimine los artículos ilegales.

tratar: ¿Cuáles son los principales desafíos del uso de datos alternativos?

Černiauskas: El primer y más destacado desafío es la propia extracción de datos alternativos. Está disperso en diferentes fuentes y formatos y, a menudo, es específico de cada caso y granular. Por lo tanto, los raspadores de uso general de talla única no pueden hacer el trabajo correctamente. No todas las empresas de DaaS son capaces de proporcionar raspadores y analizadores personalizados, por lo que las empresas tienen que crear equipos internos de extracción de datos.

Las empresas que recopilan cantidades masivas de datos internos y externos también pueden tener problemas al intentar escalar e integrar sus operaciones de datos. A medida que aumenta el volumen de datos, administrarlos, procesarlos y analizarlos se vuelven más desafiantes y, por lo tanto, pueden requerir tecnología de aprendizaje automático. De lo contrario, la empresa difícilmente combinará una descripción general significativa del negocio o del cliente, y terminará con silos de datos e información fragmentada.

Otra cosa importante a tener en cuenta es que las señales derivadas de datos alternativos pueden ser débiles en comparación con las fuentes de datos tradicionales. La mayoría de los datos alternativos capturan solo ventanas de tiempo breves y no son adecuados para pronósticos a largo plazo. Tomemos el ejemplo del análisis de sentimiento y mención de marca mencionado anteriormente: las declaraciones emocionales cambian rápidamente y pueden verse afectadas por muchos factores. Como tal, los datos alternativos solo pueden ser útiles para generar conocimientos a corto plazo (hasta 5 años) y altamente específicos. Por otro lado, estos conocimientos suelen ser la clave para ganar la competencia empresarial.

Recomendado:  Lo mejor de arXiv.org para inteligencia artificial, aprendizaje automático y aprendizaje profundo: abril de 2021

tratar: ¿Cómo pueden las herramientas de IA generativa, como ChatGPT, mejorar la recopilación, el análisis o el procesamiento de datos?

Černiauskas: ChatGPT es un modelo de lenguaje entrenado, basado en NLP, puede generar texto casi humano, comprender solicitudes textuales, hacer traducciones y (hasta cierto punto) analizar datos textuales. Básicamente, es una máquina de resumen de información masiva. Como tal, difícilmente puede mejorar los esfuerzos de recopilación de datos. Sin embargo, puede ayudar (nuevamente, hasta cierto punto) en el procesamiento y análisis de datos.

Por ejemplo, si tiene un conjunto de datos simple basado en texto, puede solicitar a dicha IA un resumen de estadísticas o pronósticos basados ​​en estos datos. También puede solicitar KPI específicos y código SQL o fórmulas matemáticas para esos KPI. Sin embargo, solo obtendrá ejemplos de propósito general de la información con la que se ha alimentado el algoritmo. No será específico para casos de uso y datos. Por ahora, desafortunadamente, ChatGPT no está diseñado para tareas de análisis de datos. Por supuesto, esto podría cambiar en el futuro, ya que OpenAI afirma tener objetivos bastante enormes para su chatbot.

Por lo tanto, aunque sea tentador, la IA generativa como ChatGPT debe usarse con precaución. Primero, está cometiendo muchos errores simples. Los modelos de ML dependen de los datos con los que se entrenan y pueden pasar por alto datos nuevos o no generalizarlos bien. También pueden sufrir sesgos y lagunas en los datos debido al sesgo cognitivo y errores humanos en el conjunto de entrenamiento.

En segundo lugar, la IA generativa carece de la capacidad de interactuar con valores cambiantes o paneles en tiempo real o conectarse a fuentes de datos distribuidas. Como tal, es bueno para la planificación estratégica, resumir datos textuales u obtener algunos ejemplos e inspiración, pero no reemplazará al software de recopilación de datos ni a los analistas de datos. La extracción y el procesamiento de grandes volúmenes de datos en tiempo real requiere infraestructura y conocimientos especializados.