Amazon Web Services (AWS) es una fuerza importante en el mercado de la nube pública. Cada año alberga AWS re: Invent, considerada por usuarios y analistas como una de las conferencias técnicas anuales más importantes sobre la nube. Por primera vez en varios años, AWS re: Invent 2021 podría ser atendido en vivo en Las Vegas o seguido en línea. Una de las principales atracciones de la conferencia (además de estar en Las Vegas) siempre ha sido la cantidad de anuncios de nuevos productos que AWS hace cada año. Como analista técnico que cubre la inteligencia artificial, este año me interesaron particularmente los anuncios de AWS sobre Amazon SageMaker.
Amazon SageMaker es un servicio de aprendizaje automático totalmente administrado que hace que sea mucho más fácil construir, entrenar modelos de aprendizaje automático y luego implementarlos en un entorno alojado listo para producción. Ha hecho que el aprendizaje automático sea más accesible, ha permitido la creación y ejecución de modelos a escala, ha reducido el tiempo de capacitación y ha llevado a prácticas MLOps estandarizadas en muchas organizaciones.
Este año, AWS anunció seis nuevas funciones de Amazon SageMaker:
· SageMaker Canvas: proporciona la capacidad de generar predicciones de aprendizaje automático más precisas mediante una interfaz de apuntar y hacer clic, sin necesidad de codificación.
· SageMaker Ground Truth Plus: un servicio de etiquetado de datos totalmente administrado que utiliza una fuerza laboral altamente capacitada y flujos de trabajo integrados.
· SageMaker Studio: hace que los flujos de trabajo de ingeniería de datos, análisis y aprendizaje automático sean accesibles dentro de un portátil universal.
· Compilador de capacitación de SageMaker: ayuda a entrenar modelos de aprendizaje profundo hasta un 50% más rápido compilando código automáticamente para hacerlo más eficiente.
· Recomendador de inferencia de SageMaker: sugiere automáticamente las instancias de cómputo de AWS óptimas para ejecutar la inferencia de aprendizaje automático con la mejor relación precio-rendimiento.
· Inferencia sin servidor de SageMaker: proporciona computación sin servidor para la inferencia de aprendizaje automático a escala.
Aunque cubriré Amazon SageMaker y sus nuevas funciones en un artículo futuro, para este, quiero destacar dos de las seis nuevas funciones.
Amazon SageMaker Ground Truth Plus:
Se necesita un conjunto de datos grande y etiquetado para entrenar correctamente un modelo de aprendizaje automático. Los métodos de etiquetado tradicionales no son baratos porque los conjuntos de datos son enormes y es un proceso que requiere mucha mano de obra.
Tus opciones son contratar y gestionar a tus trabajadores para etiquetar los datos o contratar el trabajo a una empresa especializada en etiquetar datos. Puede utilizar lo que considero el método más eficiente y rentable: Amazon SageMaker Ground Truth Plus. Este método produce conjuntos de datos de entrenamiento de alta calidad mediante el uso de una combinación de trabajadores humanos y aprendizaje automático para crear conjuntos de datos con etiquetas de alta calidad.
Puedo ofrecer mi opinión porque anteriormente utilicé una parte independiente de este producto de AWS en numerosas ocasiones hace unos diez años. La parte que utilicé se llama AWS Mechanical Turk, un componente principal del proceso Ground Truth. Consiste en trabajadores humanos calificados que brindan servicios por contrato a AWS mediante licitación. Cuando utilicé el servicio, necesitaba etiquetar y clasificar varios cientos de miles de respuestas a encuestas de clientes de un sitio de comercio electrónico principal. Mechanical Turk no solo demostró ser un proceso rápido, sino que también fue una forma muy rentable de obtener resultados sin el proceso lento y el gasto de contratar, alojar y administrar una fuerza laboral temporal. Para hacer el trabajo aún más eficiente, el proceso Ground Truth también puede usar el aprendizaje automático para determinar cómo se debe etiquetar su conjunto de datos de entrenamiento. Esta característica se llama etiquetado automatizado de datos. Este proceso de AA decide qué datos deben ser marcados por trabajadores humanos y cuáles son adecuados para el etiquetado de máquinas.
Aunque han pasado diez años desde que utilicé el proceso, AWS todavía lo está usando habla por sí mismo. Y debido a que todos los procesos de AWS están sujetos a mejoras continuas, estoy seguro de que el servicio es aún más eficiente ahora que cuando lo usé.
Lienzo de Amazon SageMaker
Así como elegí destacar Amazon SageMaker Ground Truth Plus por motivos personales, también elegí Amazon SageMaker Canvas para destacar por otro motivo personal. Pero no porque tenga experiencia usándolo, sino porque tengo la intención de usarlo.
Como antecedentes, uno de mis proyectos de investigación personal implica la recopilación de datos sobre las condiciones ionosféricas que afectan la propagación de señales de radio HF de muy baja potencia y los lugares donde se propagan las señales. Como explicación simple, cada señal de radio de HF es refractada por la ionosfera en un plano de coordenadas diferente que depende de la frecuencia y el ángulo de la señal de HF. El punto de refracción se ve además afectado por unos 40 factores meteorológicos espaciales diferentes.
En breve, habré recopilado datos sobre unas 500.000 señales refractadas, cada refracción influenciada por 40 factores climáticos espaciales diferentes en constante cambio. Quiero resolver el problema: para una frecuencia determinada, transmitida desde una ubicación determinada, a una hora específica del día, en las condiciones climáticas espaciales predominantes, ¿qué ubicaciones recibirán esa señal y con qué intensidad?
Eso es una gran cantidad de datos. El análisis de estos datos solo se puede realizar de manera razonable con el aprendizaje automático. También resulta ser un candidato perfecto para Amazon SageMaker Canvas porque no soy un científico de datos.
Amazon SageMaker Canvas atraerá a más usuarios por las mismas razones por las que estoy interesado en usarlo: SageMaker Canvas brinda acceso al aprendizaje automático con una interfaz visual de apuntar y hacer clic. Un analista de negocios podrá generar una predicción precisa de aprendizaje automático sin experiencia previa en aprendizaje automático o experiencia en la escritura de código para el aprendizaje automático.
SageMaker Canvas también ofrece otros beneficios:
· SageMaker Canvas permite un acceso rápido a los datos independientemente de la ubicación, en la nube o en las instalaciones. Los conjuntos de datos se pueden combinar o unificar para el entrenamiento de modelos.
· SageMaker Canvas también detecta y corrige automáticamente los errores de datos y analiza los datos para comprobar su disponibilidad para utilizar el aprendizaje automático.
· SageMaker Canvas tiene una función incorporada llamada AutoML que crea automáticamente modelos de aprendizaje automático basados en el caso de uso único de un usuario y el conjunto de datos.
· Otra característica interesante es que SageMaker Canvas está integrado con SageMaker Studio, lo que permite la colaboración con otros desarrolladores y científicos de datos.
Moor Insights & Strategy, como todas las firmas de investigación y análisis, proporciona o ha proporcionado investigación, análisis, asesoramiento o consultoría pagados a muchas empresas de alta tecnología en la industria, incluidas 8×8, Advanced Micro Devices, Amazon, Applied Micro, ARM, Aruba Redes, AT&T, AWS, A-10 Strategies, Bitfusion, Blaize, Box, Broadcom, Calix, Cisco Systems, Clear Software, Cloudera, Clumio, Cognitive Systems, CompuCom, Dell, Dell EMC, Dell Technologies, Diablo Technologies, Digital Optics, Dreamchain, Echelon, Ericsson, Extreme Networks, Flex, Foxconn, Frame (ahora VMware), Fujitsu, Gen Z Consortium, Glue Networks, GlobalFoundries, Google (Nest-Revolve), Google Cloud, HP Inc., Hewlett Packard Enterprise, Honeywell, Tecnologías Huawei, IBM, Ion VR, Inseego, Infosys, Intel, Interdigital, Circuito Jabil, Konica Minolta, Lattice Semiconductor, Lenovo, Fundación Linux, MapBox, Marvell, Mavenir, Marseille Inc, Mayfair Equity, Meraki (Cisco), Mesophere, Microsoft , Mojo Networks, National Instruments, Net Aplicación, Nightwatch, NOKIA (Alcatel-Lucent), Nortek, Novumind, NVIDIA, Nuvia, ON Semiconductor, ONUG, OpenStack Foundation, Oracle, Poly, Panasas, Peraso, Pexip, Pixelworks, Plume Design, Poly, Portworx, Pure Storage, Qualcomm , Rackspace, Rambus, Rayvolt E-Bikes, Red Hat, Residio, Samsung Electronics, SAP, SAS, Scale Computing, Schneider Electric, Silver Peak, SONY, Springpath, Spirent, Splunk, Sprint, Stratus Technologies, Symantec, Synaptics, Syniverse, Synopsys, Tanium, TE Connectivity, TensTorrent, Tobii Technology, T-Mobile, Twitter, Unity Technologies, UiPath, Verizon Communications, Vidyo, VMware, Wave Computing, Wellsmith, Xilinx, Zebra, Zededa y Zoho, que pueden citarse en blogs y investigar.