Acelerando la IA | marzo 2022

por don monroe

Comunicaciones de la ACM, marzo de 2022, vol. 65 No. 3, páginas 15-16
10.1145/3510554
Comentarios

Crédito: James Teoh Arte

El éxito del aprendizaje automático para una amplia gama de aplicaciones ha tenido costos importantes. Las redes neuronales profundas más grandes pueden tener cientos de miles de millones de parámetros que deben ajustarse a conjuntos de datos gigantescos. Este proceso de entrenamiento computacionalmente intensivo puede costar millones de dólares, así como grandes cantidades de energía y carbono asociado. La inferencia, la aplicación posterior de un modelo entrenado a nuevos datos, es menos exigente para cada uso, pero para aplicaciones de uso generalizado, el uso de energía acumulada puede ser aún mayor.

«Por lo general, se gastará más energía en la inferencia que en la capacitación», dijo David Patterson, profesor emérito de la Universidad de California, Berkeley, e ingeniero distinguido de Google, quien en 2017 compartió el premio AM Turing de ACM. Patterson y sus colegas publicaron recientemente un análisis exhaustivo de las emisiones de carbono de algunas grandes aplicaciones de aprendizaje profundo y descubrieron que la energía invertida para refinar la capacitación puede compensarse con creces con la reducción de los costos de inferencia para modelos mejorados.

El documento también señala que los usuarios pueden reducir el dióxido de carbono (CO₂) emisiones más allá de las del ahorro de energía al elegir fuentes de electricidad menos intensivas en carbono para sus cálculos. «Si elige una red de energía solar en lugar de una basada en carbón australiano, puede reducir sus emisiones 80 veces», dijo Alexandra «Sasha» Luccioni, posdoctorado en el Instituto Mila centrado en IA en Quebec, Canadá. quien publicó previamente una herramienta para ayudar a los usuarios a estimar sus huellas de carbono. En muchos casos, Luccioni sospecha que esta reducción compensará con creces la energía necesaria para transferir los datos a una ubicación remota, pero esas compensaciones deben cuantificarse.

Volver arriba

Aceleradores especializados

La cantidad de energía dedicada a la computación ahora es significativa a escala global. Históricamente, el aumento de los requisitos de energía se vio compensado en gran medida por tecnologías más eficientes de acuerdo con la Ley de Moore, y los fabricantes continúan introduciendo nuevas generaciones innovadoras de tecnología. Sin embargo, desde principios de la década de 2000, los parámetros críticos del dispositivo, como el voltaje de funcionamiento, ya no podían seguir la estrategia de escalado clásica, y la tasa de mejora de energía se ha ralentizado, dijo Jonathan Koomey, presidente de Koomey Analytics, quien ha consultado con los fabricantes para validar su energía. objetivos.

No obstante, «hay maneras de evitarlo, al menos por un tiempo», dijo. «Estas formas de evitarlo a veces involucran un mejor software, a veces involucran la optimización del hardware y el software, y a veces involucran dispositivos informáticos de propósito especial para realizar tareas particulares mucho más rápido de lo que podría hacer una computadora de propósito general».

Los proveedores de servicios web, así como las empresas que realizan su propio procesamiento, emplean cada vez más aceleradores de hardware que se especializan en el aprendizaje profundo, y las empresas emergentes se han movido para aprovechar esta oportunidad. Estos aceleradores están destinados principalmente a acelerar los cálculos, pero también reducen significativamente el consumo de energía al reducir la cantidad de operaciones y transferencias de datos innecesarias.

Las redes neuronales que subyacen al aprendizaje profundo comprenden múltiples capas de unidades que recuerdan a las células cerebrales, en el sentido de que cada una se conecta a muchas unidades similares. La actividad de cada «neurona» se calcula a partir de la suma de la actividad de muchas otras, multiplicada por un «peso» ajustable. El entrenamiento ajusta estos pesos para que la salida se acerque a la deseada para cada entrada, y también puede explorar «modelos» alternativos, es decir, las interconexiones y respuestas de las neuronas.

Los cálculos requeridos se pueden realizar utilizando una unidad de procesamiento central (CPU) de propósito general, que es conveniente para pequeñas tareas de capacitación. Sin embargo, a medida que las tareas se vuelven más grandes y maduras, existen fuertes motivaciones, tanto de velocidad como de eficiencia energética, para aprovechar la previsibilidad y el paralelismo del cálculo mediante la adición de hardware especializado.

Muchos usuarios utilizan unidades de procesamiento de gráficos (GPU) para la aceleración, especialmente durante el entrenamiento. Aunque estos dispositivos se desarrollaron para tareas de representación y visualización de imágenes, su estructura altamente paralela, optimizada para operaciones de acumulación múltiple, los hace muy adecuados para redes neuronales. Ese mercado está dominado por NVIDIA y Advanced Micro Devices, que ahora comercializan dispositivos expresamente para aplicaciones de inteligencia artificial. Las GPU más avanzadas combinan potentes chips de procesador con memoria en un único paquete avanzado que admite comunicaciones de gran ancho de banda.

Algunos usuarios, en particular Microsoft, siguen defendiendo las matrices de compuertas programables en campo (FPGA) flexibles para el aprendizaje profundo. En 2015, sin embargo, Google, motivado por las terribles predicciones de los servidores de energía que podrían necesitar para la inferencia de procesamiento de voz, presentó la primera versión de su Unidad de procesamiento de tensor (TPU).

Estos chips personalizados se crearon específicamente para la inferencia de aprendizaje profundo utilizando herramientas de diseño «ASIC». Sin embargo, dijo Patterson, «el problema es que la abreviatura Application Specific Integrated Circuit hace que suene como si estuvieras construyendo hardware que solo puede hacer un modelo en particular». En realidad, las TPU y otros aceleradores, incluidas las GPU, pueden admitir una variedad de modelos.

Las empresas están siguiendo varios enfoques. Cerebras, por ejemplo, ha recibido mucha atención por usar una oblea de silicio completa para un chip, incluidas docenas de unidades de procesamiento. No obstante, los rápidos avances y el crecimiento de los modelos plantean un desafío para el hardware dedicado que incorpora supuestos específicos sobre computación, distribución de memoria y comunicaciones. Recientemente, por ejemplo, los investigadores han tenido un gran éxito con «transformadores» como el modelo de lenguaje masivo GPT-3 de OpenAI, que tiene más de 100 mil millones de parámetros.

Volver arriba

Grandes oportunidades

A pesar de estos desafíos y del dominio de los gigantes corporativos, las empresas más pequeñas han percibido oportunidades para la innovación de hardware. «No creo que en mi carrera haya visto surgir tantos emprendimientos de hardware en tan poco tiempo», dijo David Brooks, profesor de Ciencias de la Computación de la Familia Haley en la Universidad de Harvard. «Eso es algo bueno, pero habrá una sacudida en el proceso», demostraron las empresas que ya han cerrado o cambiado sus estrategias.

Los diseñadores de dispositivos utilizan una variedad de técnicas para omitir operaciones innecesarias. Una estrategia clave explota la «escasez» de muchos modelos. «Al final hay muchos ceros en las matrices de peso», dijo Brooks. «Si puede encontrar formas de encontrar todos los ceros y luego evitar tener que enviarlos a través de toda la ruta de datos, puede ahorrar bastante» energía al omitirlos. También se pueden explotar otras formas de escasez, dijo. Por ejemplo, «Hay muchos valores muy pequeños que bien podrían ser un cero».

«Lo más importante con lo que me he encontrado es que están disminuyendo su precisión en un nivel de conjunto de instrucciones», dijo Andrew Lohn, analista del Centro de Seguridad y Tecnología Emergente de la Universidad de Georgetown. «Pueden tener operaciones más rápidas y eficientes, porque las aplicaciones de aprendizaje profundo no necesitan tanta precisión», especialmente para la inferencia.

Los rápidos avances y el crecimiento de los modelos plantean un desafío para el hardware dedicado que incorpora supuestos específicos sobre computación, distribución de memoria y comunicaciones.

Patterson también destaca la importancia del diseño de la memoria, incluida la ubicación de la SRAM donde se necesita en el chip, así como las conexiones de gran ancho de banda a la DRAM fuera del chip. Aunque las unidades aritméticas son importantes, dijo, «a dónde va la energía y el tiempo es el acceso a la memoria».

Los innovadores a menudo se centran en el hardware y «muchos de ellos no invirtieron en la pila de software», dijo Patterson. En su mayor parte, las empresas no han informado los resultados de los puntos de referencia como la suite MLPerf, que Patterson dijo que le preocupaba que «sea una muy mala señal».

Optimizar cómo funciona el hardware junto con un modelo en particular podría llevar a los usuarios a un proceso de diseño más completo, dijo Brooks. «El codiseño, en cierto sentido, se trata de romper con las abstracciones y tratar de diseñar cosas que se encuentran en múltiples capas de la pila». Irónicamente, dijo, «el aprendizaje automático es quizás una buena manera de romper algunas de esas abstracciones», aliviando algunos de los problemas que causa.

Volver arriba

Cálculos a hiperescala

El impacto total de energía y carbono de la IA incluye no solo los chips aceleradores, sino también la transferencia de datos fuera del chip y de larga distancia, así como la gran sobrecarga de energía de la infraestructura de las instalaciones, como la refrigeración y las fuentes de alimentación. «Google definitivamente ha estado a la vanguardia de la mejora de las cosas en términos de eficiencia», dijo Koomey. El gigante de los motores de búsqueda informa un exceso de energía de solo alrededor del 10% de la energía computacional en sus centros de datos de hiperescala, que según él es sustancialmente más bajo que en otras instalaciones, especialmente en servidores corporativos infrautilizados.

La falta de transparencia sobre el uso de la energía, a veces por motivos competitivos, sigue siendo un problema. Koomey ha argumentado que la información limitada ha contribuido a algunas estimaciones engañosamente pesimistas del uso de energía de la IA.

De hecho, aunque albergar muchos cálculos permite a los proveedores mejorar la utilización, «cuando se ejecuta en un clúster grande, es difícil aislar el consumo de energía de un proceso determinado o un usuario determinado», dijo Luccioni de Mila. Las publicaciones a menudo omiten otros detalles importantes, y ella y sus colegas desarrollaron su herramienta de evaluación después de que les resultó imposible extraerlos de los documentos. También le preocupan los costos de energía y carbono de fabricar los dispositivos en primer lugar. «No tenemos cifras de qué tipo de CO₂ se emite creando una GPU NVIDIA».

Luciani expresó su esperanza de que la divulgación estandarizada de los impactos de la energía y el carbono se convierta en un requisito común para las publicaciones y conferencias, como la publicación de códigos y datos para promover la reproducibilidad.

Otras lecturas

Sze, V., Chen, Y., Yang, T. y Emer, JS
Cómo evaluar los procesadores de redes neuronales profundas, Tutorial de la ISSCC 2020https://bit.ly/2ZAHMhg

Patterson, D., González, J., Le, Q, Liang, C., Munguia, L., Rothchild, D., Texier, M. y Dean, J.
Capacitación sobre emisiones de carbono y redes neuronales grandes, [currently posted as a preprint on ArXiv, but under review at CACM, so it may be printed before this story] (2021), https://arxiv.org/abs/2104.10350

Khan, SM y Mann, A.
Chips de IA: qué son y por qué son importantes, Centro de seguridad y tecnología emergente (2020), https://bit.ly/3beaC9u

Koomey J. y Masanet, E.
No calcula: Evitar trampas al evaluar los impactos de energía y carbono de Internet, julio 5, 1 (2021), https://bit.ly/3bbeiJh

Volver arriba

Autor

don monroe es un escritor de ciencia y tecnología con sede en Boston, MA, EE. UU.

Se otorga permiso para hacer copias digitales o impresas de parte o la totalidad de este trabajo para uso personal o en el aula sin cargo, siempre que las copias no se hagan o distribuyan con fines de lucro o ventaja comercial y que las copias lleven este aviso y la cita completa en la primera página. Deben respetarse los derechos de autor de los componentes de este trabajo que no pertenezcan a ACM. Se permite hacer resúmenes con crédito. Para copiar de otro modo, volver a publicar, publicar en servidores o redistribuir a listas, se requiere un permiso y/o tarifa específicos previos. Solicite permiso para publicar a permisos@acm.org o envíe un fax al (212) 869-0481.

entradas no encontradas