Mejor software de extracción de datos | Datamation

Las organizaciones que utilizan análisis de datos avanzados necesitan una forma de obtener los datos de donde residen para poder moverlos a un almacén de datos o lago de datos. Ahí es donde entraron las herramientas de extracción de datos.

Es casi imposible comprar una herramienta que solo extraiga datos. La más básica de estas herramientas también transforma los datos y los carga en otro sistema. En los primeros días de la minería de datos, muchos proveedores de extracción de datos comercializaban sus productos como ETL (abreviatura de extraer, transformar, cargar), ELT (abreviatura de extraer, cargar, transformar) o herramientas de migración de datos. A lo largo de los años, la mayoría de los proveedores han agregado más capacidades a sus herramientas y ahora las llaman herramientas de integración de datos y / o canalización de datos, aunque las capacidades principales siguen siendo las mismas.

Vale la pena señalar que muchas estructuras de datos y plataformas de administración de datos también incorporan funciones de extracción e integración de datos. Sin embargo, algunas organizaciones encuentran útil tener un software de extracción de datos por separado porque estas herramientas independientes a veces ofrecen un mejor rendimiento y pueden ser más asequibles si las organizaciones no necesitan todas las capacidades de una plataforma de datos más avanzada.

La siguiente lista se centra en herramientas cuyo propósito principal es la extracción de datos, en lugar de capacidades más amplias.


Recomendado: ¿Qué es el Big data?.


Cómo seleccionar el software de extracción de datos

Si está buscando software de extracción de datos, tenga en cuenta estos consejos:

  • Determine sus necesidades. Asegúrese de comprender exactamente por qué está buscando un software de extracción de datos y qué funciones necesita. Identifique dónde encajará en sus flujos de trabajo de big data y análisis, para que comprenda con qué otras herramientas necesita integrarse.
  • Tenga en cuenta el nivel de experiencia de su personal. Algunas herramientas de extracción de datos están diseñadas para ser utilizadas por analistas comerciales sin habilidades de codificación, mientras que otras requieren conocimientos más avanzados. Asegúrese de obtener el tipo de herramienta adecuado para adaptarse a las habilidades de su equipo.
  • Verifique las conexiones. Cuando se trata de software de extracción de datos, nada es más importante que asegurarse de que se conecte a sus fuentes de datos, así como al software o los servicios en la nube que utiliza para su almacén de datos o lago de datos. Recuerde, la cantidad total de conexiones no es tan importante como conectarse a las aplicaciones y servicios reales que utiliza. Y si una herramienta que está considerando no se conecta a todas sus fuentes de datos, asegúrese de comprender la dificultad que implica la creación de conexiones personalizadas.
  • No confunda ELT y ETL. Algunos software de extracción de datos pueden hacer tanto ELT (la carga ocurre antes de la transformación de datos) como ETL (la transformación ocurre antes de la carga), pero algunos pueden hacer solo uno u otro. Asegúrese de obtener el tipo de producto adecuado para sus necesidades.

Con esos consejos en mente, aquí hay diez proveedores de software de extracción de datos que quizás desee considerar:

Salta a:

Mejor software de catálogo de datos

Monarca de Altair

Fundada en 1985, Altair vende una variedad de software, hardware y servicios, principalmente relacionados con análisis de datos, diseño de productos, computación de alto rendimiento e Internet de las cosas. Sus clientes incluyen NASA, RUAG Space, PING Golf, Specialized, Ford, Stanley Black & Decker, Kyoto University y otros. A lo largo de los años, Altair ha adquirido varias otras empresas de tecnología, incluido Datawatch, el proveedor anterior del software Monarch.

Monarch, que forma parte de la línea de análisis de datos de la empresa, es la “solución de preparación de datos de autoservicio líder en el mercado”. Incorpora capacidades de extracción, limpieza y transformación de datos, y ofrece más de 80 funciones de preparación de datos predefinidas. Puede extraer datos de archivos PDF y de texto, así como de fuentes estructuradas, y no requiere habilidades de codificación. Está disponible en una variedad de versiones diferentes y se puede implementar en la nube como software como servicio o en las instalaciones.

Una suscripción anual al servicio en la nube Monarch Complete comienza en $ 1,995. Hay disponibles demostraciones y una prueba gratuita. Los precios de la versión de servidor están disponibles a pedido.

Pros

  • Con sus 30 años de historia, Monarch es una de las herramientas de extracción de datos más maduras disponibles.
  • La herramienta es fácil de usar.
  • Monarch se integra con otras herramientas de análisis de datos de Altair.

Contras

  • Algunos clientes se quejan de que el costo es demasiado alto o desean que una versión “ligera” con menos funciones estuviera disponible a un precio más bajo.
  • A veces, la herramienta experimenta problemas de rendimiento con conjuntos de datos muy grandes.
  • Algunos clientes dicen que no pudieron obtener el beneficio completo del software hasta que también compraron capacitación.

Integración de datos domo

Domo es una startup de inteligencia empresarial fundada en 2010. Cuenta con más de 1.800 clientes, incluidos DHL, ESPN, L’Oreal, Traeger, Zillow, Ebay, Comcast, Autodesk y otros. Ha ganado varios premios, incluido el premio Ventana Research Digital Leadership Award – Analytics y la mejor empresa de software de inteligencia empresarial de Digital.com.

Las capacidades de extracción de datos están incluidas en el producto de integración de datos de Domo. Sus características clave incluyen más de 1,000 conectores prediseñados para sistemas en la nube, tiempos de respuesta de consultas rápidos, flujos de trabajo de canalización de datos automatizados, federación de datos y procesamiento masivo paralelo. También incluye algunas capacidades de gobernanza de datos y ofrece una gran seguridad.

Los precios y una prueba gratuita están disponibles bajo petición. Los precios dependen de las características de la plataforma Domo que utilice, el volumen de datos, las necesidades de almacenamiento, las tasas de actualización, los volúmenes de consultas y la cantidad de usuarios.

Pros

  • Las capacidades de extracción de datos son parte de una plataforma de datos integral que se integra con las herramientas de BI de Domo.
  • Domo tiene conectores integrados para una gran cantidad de aplicaciones empresariales locales y en la nube.
  • La herramienta obtiene altas calificaciones de los clientes por su flexibilidad.

Contras

  • La plataforma Domo completa puede ser más de lo que necesitan algunas organizaciones, si solo buscan ETL.
  • El precio puede ser elevado.
  • Algunos clientes dicen que los nuevos lanzamientos tienden a tener errores.

Etleap

Fundada en 2013, Etleap es uno de los pocos proveedores de esta lista que todavía se describe a sí mismo como un proveedor de ETL, aunque a veces también describe su producto como software de canalización de datos. Sus clientes incluyen Mode, Blink Health, LendingHome, Airtable, Pagerduty y otros.

Domo facilita la creación de una canalización ETL para crear un almacén de datos en la nube en AWS Redshift o Snowflake. Las características clave incluyen flexibilidad, escalabilidad, opciones de creación de transformación codificadas o sin código, cumplimiento, integración SSO y más. Se integra con más de 50 fuentes de datos, incluidos MySQL, AWS, PostgreSQL, Oracle, Salesforce, Marketo, Jira, Hubspot y Hadoop.

Los precios y una demostración gratuita están disponibles a pedido.

Pros

  • La estrecha integración de Etleap con AWS lo convierte en una buena opción para organizaciones con un almacén de datos integrado en Redshift o Snowflake.
  • No tiene muchas funciones extrañas, por lo que es una buena opción si realmente solo desea ETL.
  • La formación y el apoyo están disponibles.

Contras

  • La herramienta no tiene tantas funciones como algunas de las otras opciones de esta lista.
  • Etleap no tiene una gran base de clientes y hay pocas reseñas disponibles en línea.
  • Requiere algunos conocimientos avanzados, por lo que no es una buena opción para las organizaciones que no tienen ingenieros y arquitectos experimentados en la configuración de las canalizaciones de datos y el almacén de datos.

Fivetran

Fundada en 2013, Fivetran es una empresa emergente que se centra en la “integración de datos simple y confiable para los equipos de análisis”. Tiene más de 1,000 clientes, incluidos Square, DocuSign, Lime, Spanx, Udacity y otros.

La plataforma Fivetran ofrece canalizaciones ELT totalmente gestionadas. Las características clave de extracción incluyen esquemas normalizados, actualizaciones incrementales por lotes, soporte técnico las 24 horas, monitoreo en tiempo real, registros granulares del sistema y una garantía de tiempo de actividad del 99.9%. Tiene más de 150 conectores integrados, incluidos MySQL, Oracle, Amazon S3, Microsoft Dynamics y muchos otros, y puede extraer datos directamente de más de 5.000 aplicaciones diferentes basadas en la nube.

Fivetran enumera los precios en su sitio web, pero el método de fijación de precios es complicado. El servicio cuesta $ 1 / crédito para la versión Starter, $ 1.50 / crédito para Standard y $ 2 / crédito para Enterprise. Los créditos se determinan en función de las filas activas mensuales, pero a medida que aumenta su volumen, cada crédito cubre más filas activas. Hay pruebas gratuitas disponibles.

Pros

  • Fivetran afirma que la mayoría de los usuarios pueden configurar el servicio en solo cinco minutos.
  • El precio de pago por uso facilita la ampliación.
  • El SLA de tiempo de actividad del 99,9% proporciona la confianza de que los datos siempre estarán disponibles para los analistas.

Contras

  • Los clientes dicen que las capacidades de transformación de Fivetran no son tan avanzadas como sus capacidades de extracción y carga.
  • La compañía ofrece precios por adelantado al realizar un seguimiento de su uso real que puede resultar difícil.
  • A veces, la sincronización tarda más de lo esperado.

Keboola

Con sede en la República Checa, Keboola ofrece una plataforma de operaciones de datos que incluye almacenamiento, intercambio, transformaciones y capacidades de ciencia de datos. Sus clientes incluyen Mall Group, Kiwi.com, Platterz, Heureka, Firehouse Subs, Hello Bank! y otros.

Keboola puede realizar trabajos ETL o ELT. Promete una implementación rápida, seguridad de nivel empresarial, automatización, una plataforma abierta, “andamios” para conectarse a fuentes de datos comunes, capacidades de catálogo de datos, un portal para desarrolladores y más.

Keboola ofrece un plan gratuito con 300 minutos gratis cada mes, con excedentes pagados después de eso. El plan de suscripción agrega más funciones y comienza en $ 2500 por mes.

Pros

  • Keboola ofrece más capacidades que algunas de las herramientas exclusivas de ETL.
  • Los clientes aplauden el excelente servicio de Keboola.
  • El nivel gratuito es una gran ventaja para las organizaciones que recién están comenzando con las canalizaciones de datos.

Contras

  • La interfaz de Keboola no es tan fácil de usar como otras opciones.
  • Algunos clientes se quejan de que no es tan fácil integrarse en sus flujos de trabajo de integración continua como les gustaría.
  • Keboola promete una configuración rápida, pero la incorporación no es tan rápida ni fácil como con algunos servicios de la competencia.

Matillion

Matillion se describe a sí mismo como un proveedor de software ETL basado en la nube. Fundada en 2010, ha acumulado una impresionante lista de clientes que incluye The Home Depot, Travis Perkins, GE, Siemens, Western Union, Splunk, Ikea, Cisco, Amazon, Merck, Accenture y otros. Gartner lo nombró un jugador de nicho en su Cuadrante mágico para herramientas de integración de datos.

Matillion se integra de forma nativa con AWS Snowflake y Redshift, Google BigQuaery, Microsoft Azure Synapse y otros servicios en la nube, lo que facilita la introducción de datos en un almacén de datos. Admite transformaciones avanzadas y tiene una larga lista de conectores prediseñados para fuentes de datos.

El software está disponible en dos versiones diferentes: Data Loader es una versión gratuita con capacidades básicas y ETL es la versión paga. La versión ETL tiene cuatro niveles de precios diferentes: Mediano ($ 1.79 por hora), Grande ($ 3.49 por hora), XLarge ($ 6.49 por hora) y Enterprise (precios a pedido). Hay una demostración disponible.

Pros

  • Matillion es muy fácil de usar.
  • El rendimiento es muy rápido, a menudo más rápido que las herramientas multifunción que hacen más que ETL.
  • El precio por adelantado facilita la estimación de costos.

Contras

  • Los clientes se quejan de un soporte al cliente lento o deficiente.
  • Los mensajes de error son difíciles de entender.
  • La documentación es inadecuada para las necesidades del cliente.

Panoplia

Panoply, fundada en 2015, ofrece una plataforma de datos en la nube que permite a las pequeñas y medianas empresas crear almacenes de datos. Sus clientes incluyen Kaplan, Spanx, Shinesty y otros. Ha ganado varios premios, incluida la designación de Gartner Cool Vendor en 2019.

Esta plataforma combina la extracción e integración de datos con capacidades completas de almacenamiento de datos, y algunas versiones también incluyen funciones de gobierno de datos. Ofrece conectores para más de 60 fuentes de datos y promete seguridad de clase mundial y un tiempo de actividad del 99,99%. Otras características incluyen sincronización y almacenamiento totalmente administrados, detección automática de tipos de datos, monitoreo de rendimiento integrado, alta escalabilidad y consultas SQL preconstruidas.

Panoply viene en versiones Lite ($ 200 por mes), Starter ($ 325 por mes), Pro ($ 665 por mes), Business ($ 995 por mes) y Enterprise (precios a pedido). Todos ofrecen una prueba gratuita de 14 días.

Pros

  • Panoply es una de las herramientas de extracción de datos mejor valoradas del mercado.
  • Su equipo de servicio al cliente obtiene altas calificaciones de los clientes.
  • La herramienta facilita la conexión de fuentes de datos.

Contras

  • Si bien es adecuado para la mayoría de las necesidades de las pymes, no tiene las funciones más avanzadas que las grandes empresas pueden necesitar.
  • No tiene tantos conectores integrados como algunas de las otras opciones disponibles.
  • Algunos clientes dicen que desearían que tuviera capacidades de visualización de datos.

Rivery

Rivery describe su plataforma como una “canalización de datos en tiempo real” y ofrece ETL basado en la nube, migración de datos y capacidades de orquestación de datos. Entre sus clientes se encuentran Bayer, la Sociedad Estadounidense del Cáncer, Minute Media, WalkMe y otros.

En su lista de beneficios, Rivery promociona su capacidad para ingerir datos de cualquier fuente, escalabilidad, velocidad, bajo costo y simplicidad. Diseñó su herramienta ETL para que la utilicen los usuarios empresariales sin la asistencia de los equipos de DevOps, y es compatible con AWS Snowflake y Redshift, Google BigQuery y Microsoft Azure.

Rivery ofrece algunos detalles de precios en su sitio web, pero la información no es muy específica. Dice que su paquete básico cuesta entre $ 10 y $ 50,000 por año con una prueba gratuita disponible, y el precio del paquete Enterprise está disponible a pedido.

Pros

  • Rivery recibe críticas muy altas de los clientes.
  • Su atención al cliente es de primera categoría.
  • La interfaz es fácil de usar.

Contras

  • La configuración de una nueva fuente de datos puede llevar mucho tiempo.
  • La documentación de Rivery no es muy clara.
  • El precio en su sitio web es vago y no muy transparente.

Talend / Stitch

Ahora propiedad del proveedor de tejido de datos unificados Talend, Stitch ofrece “ETL simple y extensible”. Si bien los productos Talend y Stitch se integran bien, Stitch sigue funcionando como una unidad de negocio independiente. Entre sus clientes se encuentran Peloton, Envoy, Invision, Indiegogo, Instapage y Postman.

Esta canalización de datos totalmente administrada se integra con más de 130 fuentes de datos, y la empresa patrocina el marco de código abierto Singer, que facilita la creación de integraciones con otras aplicaciones. Stitch no requiere ningún tipo de codificación y puede configurarlo en minutos. Ofrece funciones de orquestación, seguridad, cumplimiento y calidad de datos.

Stitch Standard comienza en $ 100 por mes para 5 millones de filas de datos, subiendo hasta $ 1250 por mes para 300 millones de filas. Hay descuentos disponibles para una compra anual y la empresa ofrece una prueba gratuita de 14 días. Los precios de Stitch Enterprise están disponibles a pedido.

Pros

  • Stitch tiene una larga lista de integraciones y facilita la integración con otras fuentes de datos que no tienen soporte integrado.
  • Su servicio al cliente obtiene muy buenas críticas.
  • El precio de Stitch es muy asequible.

Contras

  • Los clientes dicen que agradecerían una mejor capacidad de filtrado de datos.
  • Tiene capacidades limitadas de transformación de datos.
  • A algunos clientes también les gustaría ver un mejor registro y manejo de errores.

Xplenty

Xplenty, que se autodenomina la “canalización de datos más avanzada”, ofrece capacidades tanto de ELT como de ETL. Es una empresa emergente fundada en Isreal en 2012. Sus clientes incluyen a Gap, Samsung, Philip Morris International, PWC, Masterclass, Deloitte, Accenture, Ikea y otros.

Xplenty ofrece un completo conjunto de herramientas de canalización de datos que incluye capacidades de orquestación y monitoreo. Se integra con más de 140 fuentes de datos y es especialmente adecuado para organizaciones que utilizan Salesforce. Es altamente escalable y tiene capacidades de personalización avanzadas.

Hay una demostración disponible y los precios están disponibles a pedido.

Pros

  • La estrecha integración de Salesforce de Xplenty lo convierte en una buena opción para las organizaciones que utilizan muchos servicios de Salesforce.
  • La herramienta recibe elogios de los clientes por ser fácil de usar.
  • La atención al cliente es muy buena.

Contras

  • Los clientes con conjuntos de datos muy grandes pueden encontrar problemas de escalabilidad.
  • Los registros y los informes de errores no son tan sólidos como deberían.
  • Falta documentación.

Tabla comparativa del software de extracción de datos

Software de extracción de datos

Pros

Contras

Monarca de Altair

· Maduro
producto

· Fácil
usar

· Integra
con otras herramientas de Altair

· Alto
precio

· Pobre
escalabilidad

· Requiere
capacitación

Domo

· Funciones completas

· Muchos conectores

· Flexibilidad

· Demasiadas funciones para algunos
clientes

· Precio alto

· Lanzamientos de buggy

Etleap

· AWS
integración

· ETL
solamente

· Capacitación
y apoyo

· Limitado
caracteristicas

· Pocos
Opiniones de los usuarios

· Requiere
conocimientos técnicos

Fivetran

· Configuración rápida

· Precios de pago por uso

· SLA de tiempo de actividad del 99,9%

· Transformación limitada
capacidades

· La estimación de precios puede ser
difícil

· Sincronización lenta

Kaboola

· Amplio
capacidades

· Bien
Servicio al Cliente

· Libre
nivel

· No
fácil de usar

· No
Soporte CI

· Lento
inducción

Matillion

· Fácil de usar

· Rendimiento rápido

· Precios por adelantado

· Soporte al cliente lento

· Manejo deficiente de errores

· Idocumentación inadecuada

Panoplia

· Altamente
calificado

· Bien
Atención al cliente

· Fácilmente
se conecta a fuentes de datos

· No
genial para empresas

· Limitado
conectores

· No
Visualización de datos

Rivery

· Buenas críticas

· Buen soporte al cliente

· Fácil de usar

· Configuración que requiere mucho tiempo

· Mala documentación

· Precios vagos

Talend / Stitch

· Altamente
extensible

· Bien
Atención al cliente

· Asequible

· Limitado
filtración

· Limitado
transformación de datos

· Pobre
registro y notificación de errores

Xplenty

· Integración de Salesforce

· Fácil de usar

· Buen soporte al cliente

· Problemas de escalabilidad

· Registro deficiente y error
reportando

· Documentación inadecuada