Uno a uno con la directora de productos de Google Cloud, Irina Farooq

Irina Farooq, directora de gestión de productos, Smart Analytics, Google Cloud

En mayo, Google Cloud anunció Dataplex, su entrada en el mundo de los tejidos de datos. Datanami se reunió recientemente con Irina Farooq, quien se unió a Google Cloud como directora de gestión de productos de análisis inteligente en Google Cloud, para discutir el estado de la gestión de big data, el papel de los tejidos de datos y el lanzamiento pendiente de Dataplex.

Datanami: Irina, es un placer conocerte. En su opinión, ¿cuáles son los mayores desafíos a los que se enfrentan las empresas en lo que respecta a sus datos?


Recomendado: ¿Qué es el Big data?.


Irina Farooq: Las empresas se enfrentan a la opción de unificar sus datos y, como resultado, tener un gobierno, metadatos y accesibilidad unificados, o distribuir sus datos, lo que da como resultado una dispersión de datos en ecosistemas dispares. Sin embargo, la realidad es que la mayoría de las empresas tienen sus datos distribuidos y este seguirá siendo el caso en el futuro previsible. Con eso, las empresas se enfrentan constantemente al desafío de «¿cómo puedo habilitar a todos mis usuarios finales con datos de alta calidad?» Además, la cantidad de herramientas y la cantidad de tipos de usuarios finales solo continuarán creciendo exponencialmente a medida que aumente la cantidad de datos.

Queremos permitir que el usuario final obtenga acceso a datos de alta calidad y asegurarnos de que no comprometan ninguna de las políticas de seguridad o gobernanza. Las empresas están tratando de construir una gran parte del pegamento por sí mismas para construir tuberías y administrar la gobernanza, lo que a su vez ralentiza la innovación. Ese es el tipo de [environment] que estamos viendo y es por eso que creemos que necesitan una plataforma de datos unificada para ayudar a resolver algunos de esos desafíos.

Datanami: ¿Pueden las empresas simplemente utilizar las herramientas y técnicas que han utilizado en los últimos 10 o 20 años en el futuro, o esto requiere nuevas herramientas y técnicas para que funcione?

Farooq: Hace diez o 20 años, la escala de datos era completamente diferente. Los datos también estaban mucho más segmentados, casi como una habitación en su casa, en lugar de ser la base de todo lo que hace. La escala, la complejidad, la naturaleza distribuida y los tipos de datos han cambiado drásticamente. Ahora hay datos de muchas fuentes diferentes, como procesamiento de imágenes y procesamiento de video, datos estructurados y todos los diferentes casos de uso e innovación que estamos tratando de habilitar dentro de la empresa.

Datanami: ¿Cuáles cree que son las oportunidades para que las empresas mejoren sus estrategias de datos?

Farooq: Una oportunidad es pensar en cómo evitar encerrarse y cómo construir una plataforma que sea abierta, flexible y segura. Otra oportunidad a considerar es asegurarse de poder aprovechar la última innovación en las diferentes herramientas, marcos y servicios, pero sin comprometer la gobernanza y la seguridad. Eso tiene que sustentar la solución.

Administrar y gobernar diversos conjuntos de datos para casos de uso de inteligencia artificial y análisis es un desafío (Fuente de la imagen: Google Cloud)

Al considerar esas cosas, es útil pensar en lo que están tratando de hacer las empresas. Etsy es un ejemplo perfecto. Completaron su migración a Google Cloud hace dos años, pero la realidad es que lo que han podido lograr es cambiar alrededor del 15% de su fuerza laboral de pensar en la gestión de la infraestructura a pensar en la experiencia del cliente. La pregunta ahora es «¿cómo utilizo los datos para reinventar la experiencia del cliente y aumentar el número de experimentos de TI en más del 100%?»

Datanami: Parece que existe esa tensión entre dejar que los usuarios suelten los datos para hacer cosas interesantes y luego también mantener el control sobre ellos. Entonces, ¿cómo ataca ese problema?

Farooq: Aquí es donde juegan un papel algunos de nuestros últimos anuncios que están cerca de mi corazón. Un producto en el que trabajé, Dataplex, lo lanzamos este año en nuestra cumbre inaugural de Google Data Cloud. Está teniendo un impacto al ayudar a las empresas a automatizar de manera efectiva la administración de datos para ayudar a abordar esa compensación. Necesita administrar sus datos de forma centralizada en un espacio distribuido y asegurarse de que los datos sean accesibles para todas las herramientas con administración dirigida por metadatos.

Datanami: Los tejidos de datos están ganando popularidad, pero no son soluciones mágicas. Una estructura de datos no puede resolver mágicamente todos mis problemas, ¿verdad?

Farooq: Absolutamente, siempre son las personas y los procesos. La estructura de datos no definirá mágicamente su estrategia de gobernanza, pero ayudará a habilitar la gobernanza. La estructura de datos ayudará a automatizar los procesos y las decisiones que está tratando de tomar y las mejores prácticas que está tratando de implementar.

Datanami: ¿Puede explicarme cómo afectará eso a un usuario individual y su flujo de trabajo individual?

Farooq: Equifax es un buen ejemplo. Equifax está utilizando Dataplex para ayudar a automatizar la gestión y el gobierno de sus datos, lo que permite que los administradores de datos establezcan políticas formales en todos sus datos, y luego los usuarios individuales pueden acceder a los datos en las herramientas de su elección. Saben que tienen acceso a los datos correctos, a datos de alta calidad en los que pueden confiar y a la totalidad de los datos a los que deberían tener acceso, independientemente de las herramientas que utilicen.

Los tejidos de datos, que proporcionan una capa de gestión común para diversos activos de datos, están ganando popularidad (amiak / Shutterstock)

Datanami: ¿Cómo encaja este tejido de datos con la estrategia de nube híbrida y de múltiples nubes de Google Cloud?

Farooq: Como saben, nos hemos comprometido con una iniciativa de nube híbrida y multicloud, a través de nuestros servicios como BigQuery Omni. A medida que construye su estructura de datos, Google Cloud lo ayudará con la huella distribuida como lo haría en una sola nube.

Datanami: ¿Cuánto trabajo implica conectar Dataplex a todos estos sistemas?

Farooq: Estamos construyendo mucho trabajo e inteligencia. Es casi como si estuviéramos automatizando el trabajo poco glamoroso. Gran parte de la inteligencia es comprender el sistema subyacente, conectar los metadatos, propagar los metadatos y dar la seguridad de que tiene conocimiento y comprensión de sus datos.

Les hemos dicho a nuestros clientes que los metadatos son el nuevo negro. Si va a administrar su huella distribuida, debe comprender sus metadatos y, desde allí, puede administrar sus datos para gobernarlos y propagarlos. Mucho de esto es automatizar el trabajo poco glamoroso o el pegamento que los clientes están haciendo actualmente y hacer que los datos sean más accesibles.

Datanami: Casi parece que estamos volviendo a los días del almacén de datos. Los datos deben estar altamente estructurados y totalmente controlados justo antes de que puedan ser expuestos a los usuarios en el almacén de datos.

Farooq: Lo que es diferente es la variedad y la huella de sus datos. Ese es exactamente el punto. Hicimos almacenamiento de datos y luego dentro de ese almacén de datos tienes los metadatos, la gobernanza, etc. Tienes lagos de datos y una forma prescriptiva de hacerlo. Pero la realidad es que los datos de los clientes se distribuyen en los almacenes, lagos de datos y mercados de datos y en esa huella de nubes múltiples e híbridas. Entonces, la diferencia es que ahora adoptamos la variedad moderna de datos, así como la distribución de los datos. Solía ​​ser que BI era el destino del almacenamiento de datos. Ahora tienes científicos de datos. Tienes aplicaciones inteligentes. Tiene todos los diferentes tipos de ingenieros de datos, todos los diferentes tipos de usuarios finales, que necesitan acceder a todos los datos que se distribuyen.

Datanami: Hablaste de la necesidad de centralización. ¿La centralización frenará a la gente?

Google Cloud DataPlex es una oferta de estructura de datos que sirve a múltiples personas involucradas en la cadena de suministro de datos moderna (fuente de la imagen: Google Cloud)

Farooq: No centralizamos los datos y no centralizamos el acceso a los datos. En efecto, lo que está centralizando es el plano de control para ayudar a aplicar la política. Pero no lo está centralizando en un solo cuerpo. Entonces, para los clientes que desean adoptar la arquitectura de malla de datos y arquitecturas más distribuidas, pueden permitir diferentes propietarios de datos dentro de esas organizaciones, proporcionar el gobierno, la calidad de los datos en torno a sus datos y exponerlos a las organizaciones.

Datanami: Eso suena como un gran desafío, ¿es esto tecnológicamente un problema solucionable?

Farooq: Absolutamente creemos que lo es. Y no estamos reinventando la rueda. Estamos sobre los hombros de gigantes. Hay inversiones que hemos realizado en Google Cloud y con el resto de nuestra cartera. Piense en la escalabilidad de BigQuery y Spanner. Las integraciones que hemos realizado dentro de la nube para asegurarnos de que podemos federarnos y de que democratizamos los datos con BigQuery y Looker, por
ejemplo, y tener esa accesibilidad.

Datanami: ¿Cómo se aplica la IA a esto? Desempeña un papel importante en la gestión de datos, ¿verdad?

Farooq: Absolutamente, y realmente estamos invirtiendo en capacidades de inteligencia de datos para ayudarlo a comprender la calidad y la confidencialidad de sus datos, de modo que pueda aplicar políticas automáticamente a los datos potencialmente confidenciales dentro de su entorno. Si bien es posible que desee realizar aprendizaje automático e inteligencia artificial en sus datos, primero aplicamos el aprendizaje automático y la inteligencia artificial a sus datos para garantizar que tenga datos de alta calidad en primer lugar. Quiere hacer IA en datos, pero necesita aplicarle IA para saber que tiene los datos correctos.

Datanami: ¿Este enfoque se aplicará a productos de transmisión de datos como Cloud Dataflow, así como a datos en reposo y bases de datos, lagos de datos, etc.?

Farooq: Absolutamente. El objetivo es comenzar con análisis, y Dataplex de inmediato se integra con productos como Dataflow, DataFusion, BigQuery, GCS, Google Cloud AI y otros. Y solo vamos a ampliar el alcance de eso. Pero el objetivo son todos sus datos, por lo tanto, datos de transmisión y lotes, así como datos estructurados, no estructurados y semiestructurados, para que tenga la unificación de esa capacidad.

Datanami: Parece que está en la hoja de ruta, pero ¿tal vez todavía no está allí?

Farooq: Dataplex está en vista previa, así que permanezca atento al anuncio completo de las capacidades. Pero muchas de estas capacidades iniciales están disponibles en nuestro producto de vista previa.

Datanami: ¿Puede decirme cuándo Dataplex se convertirá en GA?

Farooq: Aún no compartimos la fecha, pero estad atentos. Como saben, tenemos nuestra gran conferencia próxima, Google Cloud Next, por lo que compartiremos muchas actualizaciones sobre toda nuestra cartera de productos allí.

Datanami: Muchos proveedores de herramientas están persiguiendo el mismo problema. ¿Habrá un lugar para ellos en Dataplex o es una solución exclusiva de Google?

Farooq: El enfoque de apertura ha sido clave para nosotros. Queremos habilitar a los socios, por lo que incluso cuando lanzamos en la versión preliminar, había un amplio ecosistema de socios, como Starburst y Collibra, y diferentes proveedores con los que estamos trabajando desde el principio. Entonces, Dataplex en realidad proporciona una API de metastore abierta, y todos los socios que están integrados con nuestra metastore existente pueden aprovechar eso. Y luego, nuestro objetivo es cada vez más exponer las políticas a proveedores como Collibra o motores de análisis como Starburst y nuestros socios en el ecosistema más amplio.

Datanami: Gracias, Irina, por tu tiempo.

Artículos relacionados:

Surgen los tejidos de datos para calmar las pesadillas de la gestión de datos en la nube

Google Cloud aborda la unificación de datos con nuevas ofertas

Surgen las telas de Big Data para aliviar el dolor de Hadoop