Saltar al contenido

Las redes neuronales aprenden a acelerar las simulaciones | mayo 2022

9 de mayo de 2022

Crédito: Viento Dorado

Los científicos físicos y los equipos de investigación y desarrollo (I+D) de ingeniería están adoptando redes neuronales en un intento de acelerar sus simulaciones. Desde la mecánica cuántica hasta la predicción del flujo sanguíneo en el cuerpo, numerosos equipos han informado sobre aceleraciones en la simulación al cambiar los solucionadores de elementos finitos convencionales por modelos entrenados en varias combinaciones de datos experimentales y sintéticos.

En la conferencia de tecnología de la compañía en noviembre, Animashree Anandkumar, director de investigación de aprendizaje automático de Nvidia y profesor Bren de Computación en el Instituto de Tecnología de California, señaló un proyecto en el que trabajó la compañía para el pronóstico del tiempo. Afirmó que la red neuronal que creó el equipo podría lograr resultados 100 000 veces más rápido que una simulación que usaba métodos numéricos tradicionales para resolver las ecuaciones diferenciales parciales (PDE) en las que se basa el modelo.

Nvidia ha empaquetado las técnicas de aprendizaje automático que sustentan el proyecto de pronóstico del tiempo en el paquete de software Simnet que proporciona a los clientes. Sus ingenieros han utilizado el mismo enfoque para modelar los disipadores de calor que enfrían las unidades de procesamiento de gráficos (GPU) que alimentan muchos otros sistemas de aprendizaje automático.

Otras empresas de ingeniería están siguiendo su ejemplo. Tanto Ansys como Siemens Digital Industries Software están trabajando en sus propias implementaciones para respaldar sus líneas de productos de simulación mecánica, lo que se suma a un cuerpo creciente de iniciativas de código abierto como la comunidad DeepModeling.

Una razón clave para usar el aprendizaje automático para simulaciones científicas es que una colección de neuronas artificiales completamente conectadas puede actuar como un aproximador de función universal. Aunque el entrenamiento de esas neuronas es computacionalmente intensivo, durante la fase de inferencia, la red neuronal a menudo proporcionará resultados más rápidos que ejecutar simuladores basados ​​en elementos finitos o aproximaciones numéricas a PDE.

Un enfoque para entrenar una red neuronal para la simulación científica es registrar datos experimentales y aumentarlos con datos simulados utilizando métodos numéricos. Por ejemplo, una simulación del movimiento de una onda de choque en una tubería llena de fluido podría usar una combinación de registros de sensores y las soluciones de la ecuación de Bateman-Burgers.

Los datos simulados se pueden utilizar para proporcionar datos utilizables para puntos en los que es imposible colocar un sensor para registrar la presión o simplemente para proporcionar una mayor densidad de puntos de datos. En principio, el modelo de aprendizaje automático interpolará valores razonables para los puntos en los que no se hayan proporcionado datos. Pero la aproximación aprendida puede diferir fácilmente de la realidad cuando se compara con los modelos tradicionales. Es probable que la red neuronal no aprenda los patrones subyacentes, solo aquellos que le permiten aproximarse a los puntos de datos utilizados para el entrenamiento.

En la década de 1990, los investigadores descubrieron que una forma de entrenar redes neuronales con datos científicos es incorporar las PDE que describen un proceso en el modelo de aprendizaje automático. En efecto, las PDE se convierten en sesgos inductivos para la red neuronal. Al igual que con otros trabajos sobre redes neuronales en ese momento, la técnica resultó difícil de emplear en problemas a gran escala.

Recomendado:  La inteligencia artificial revoluciona la atención del accidente cerebrovascular del NHS

Paris Perdikaris, profesor asociado de ingeniería mecánica y mecánica aplicada en la Universidad de Pensilvania, explica: «Cuando las personas en la década de 1990 intentaron usar redes neuronales para resolver PDE, tenían que derivar manualmente fórmulas de propagación hacia adelante y hacia atrás. Si aplica esos métodos manuales a EDP más complejas, los cálculos se vuelven demasiado complicados».

Publicado en 2017, el enfoque de red neuronal físicamente informada (PINN) desarrollado por Maziar Raissi y George Em Karniadakis en la Universidad de Brown junto con Perdikaris aprovecha las herramientas de diferenciación automática que existen ahora. En este método, la PDE forma parte de la función de pérdida que se utiliza para recalcular los pesos de las neuronas en cada paso de entrenamiento.

Debido a que la PDE relevante puede incorporarse simplemente a la función de pérdida, los científicos e ingenieros han encontrado que el PINN es fácil de usar. Perdikaris señala: «Una de las principales razones de la popularidad actual de los PINN es la facilidad de implementación. Se necesitan aproximadamente 100 líneas de código Python para implementar un nuevo PINN, o el trabajo de una tarde. Otra razón es que un PINN suele ser más tolerantes a las suposiciones que los solucionadores convencionales».

El enfoque mejorado de PDE no solo puede funcionar bien para problemas de alta dimensionalidad con suposiciones más relajadas, sino que también funciona para ecuaciones complejas que contienen operadores integrales que son difíciles de resolver usando métodos tradicionales de diferencias finitas.

Una desventaja de usar PINN es que capacitarlos puede estar lejos de ser sencillo. Su comportamiento es bastante diferente al de las redes neuronales que utilizan funciones de pérdida convencionales que no tienen múltiples términos diferenciales de orden superior. El enfoque de descenso de gradiente estocástico utilizado en muchas aplicaciones de aprendizaje profundo a menudo falla en los PINN. «Descubrimos que para hacer que estos optimizadores funcionen, tenemos que hacer ajustes manuales significativos y recurrir a trucos y técnicas no estándar», dice Amir Gholami, investigador postdoctoral que trabaja en el Laboratorio de Investigación de IA de Berkeley en California.

En muchos casos, el espacio de la solución es demasiado complejo para que la capacitación converja automáticamente. En una situación como la modelización de la advección beta en fluidos, que se utiliza en la simulación de huracanes, el valor beta en sí mismo demuestra ser un obstáculo. «Probamos con diferentes versiones beta. Tan pronto como pasas a niveles más altos de beta, las cosas comienzan a fallar», señala Gholami.

La inicialización del peso de las neuronas al comienzo del entrenamiento es igualmente problemática. Las técnicas desarrolladas para redes neuronales profundas por Xavier Glorot y Yoshua Bengio en la Universidad de Montreal en 2010 y ahora ampliamente utilizadas no funcionan para PINN porque no operan en un entorno de aprendizaje supervisado convencional. «Se violan todas las suposiciones que se utilizan para la inicialización en las redes clásicas», dice Perdikaris, y agrega que la distribución de datos tiene un efecto significativo en la convergencia del entrenamiento. «Las suposiciones que utilizamos para el aprendizaje profundo deben revisarse o adaptarse al marco PINN».

Los investigadores han desarrollado algunas soluciones alternativas para solucionar los problemas que han encontrado con los PINN. Una es adaptar los datos para que el entrenamiento sea más consistente desde el principio, lo que se puede lograr limitando el rango de conjuntos de datos utilizados en las primeras etapas del entrenamiento antes de extender el rango cubierto. Colby Wight y Jia Zhao de la Universidad Estatal de Utah describieron este método en un artículo publicado en el verano de 2020.

Recomendado:  La tecnología moderna no puede proteger su identidad secreta | mayo 2022

En una presentación en NeurIPS en diciembre pasado, Gholami y sus colegas propusieron adaptar el PDE durante la capacitación en una forma de aprendizaje curricular. «Descubrimos que comenzar con un PDE simple y luego hacer que la regularización del PDE sea más compleja hace que el panorama de pérdidas sea más fácil de entrenar», dice Gholami.

Un contribuyente a la dificultad de entrenar PINN se reduce a lo que los investigadores llaman sesgo espectral. Es probable que esta también sea una causa clave de la tendencia de los PINN a alinearse con patrones de baja frecuencia en los datos más fácilmente que aquellos con frecuencias más altas. La progresión de las PDE simples a complejas facilita la superposición de los contribuyentes de mayor frecuencia una vez que la capacitación inicial haya identificado los contribuyentes de baja frecuencia.

Perdikaris y sus colegas exploraron estos problemas trabajando con una técnica desarrollada hace varios años por Arthur Jacot y sus colegas en la École Polytechnique Fédérale de Lausanne de Francia. Este trabajo empleó una red neuronal conceptual con una capa oculta infinitamente ancha impulsada por una función de pérdida para calcular los elementos de un núcleo algebraico que describe las propiedades de entrenamiento de la red neuronal. Se utilizaron técnicas comunes de análisis de matrices, como valores propios y vectores propios de estos núcleos tangentes neuronales, para ver cómo diferían entre las redes neuronales que encontraron problemas. Por lo general, los componentes de la función de pérdida que corresponden a núcleos tangentes neuronales con valores propios más grandes se aprenderán más rápido, los demás mucho más lentamente.


La forma más sencilla de solucionar el problema de la falla en el entrenamiento es reducir drásticamente la tasa de actualización de gradiente.


La diferencia en la capacidad de respuesta de los diferentes términos en las PDE utilizadas para las funciones de pérdida tiene un efecto dramático en la capacidad de entrenamiento. Lo que llamó la atención de la Universidad de Pensilvania fue la gran discrepancia de las tasas de convergencia en diferentes funciones de pérdida de PINN. Subrayó la observación común de que las ecuaciones de onda tienden a ser particularmente problemáticas. Los términos que codifican las condiciones límite también resultan ser más problemáticos para el entrenamiento, lo que ayuda a explicar por qué otros investigadores encontraron que relajar esas condiciones ayudaba a las redes neuronales a converger más rápidamente cuando intentaban encontrar heurísticas para hacer que sus PINN fueran más fáciles de entrenar.

La forma más sencilla de solucionar el problema de la falla en el entrenamiento es reducir drásticamente la tasa de actualización del gradiente, dando a los términos más rígidos una mejor oportunidad de actualizarse adecuadamente entre lotes consecutivos. Pero esto corre el riesgo de ralentizar el proceso hasta el punto de que no produzca un modelo útil.

Perdikaris ve que la información del kernel de tangente neural se utiliza para ajustar las tasas de entrenamiento de cada uno de los términos para mejorar la convergencia. «Esto no se limita a los PINN: se aplica a cualquier situación de entrenamiento multitarea», dice. «En general, deberíamos pensar en desarrollar arquitecturas y métodos más especializados para estos problemas».

Recomendado:  Del androide paranoico del autoestopista a Wall-E: ¿por qué los robots de la cultura pop están tan tristes? | Inteligencia artificial (IA)

La distribución de los datos de entrenamiento también juega un papel importante en la configuración del espectro del kernel de tangente neuronal, lo que sugiere otras técnicas que podrían usarse para mejorar la capacidad de entrenamiento en una variedad de aplicaciones de redes neuronales.

Es posible que la estructura de la red neuronal en sí no sea óptima para todos, excepto para un subconjunto de los problemas en los que se pueden implementar los PINN. «Desde la intuición, tendría sentido que necesitaríamos diferentes tipos de arquitecturas según la naturaleza de la PDE subyacente», dice Gholami.

Perdikaris dice que la aparición de PINN ha revelado muchos problemas, pero podrían contribuir en gran medida a informar la teoría de las redes neuronales. «Es un campo muy emocionante. Es cómo era el aprendizaje profundo antes de 2010. Tenemos el presentimiento de que debería funcionar. Pero a medida que avanzamos hacia aplicaciones realistas, nos encontramos con limitaciones. El problema no es el marco PINN en sí mismo; es cómo nosotros lo configuramos».

«Lo que necesitamos es desarrollar una comprensión rigurosa de lo que va mal a medida que aumentamos la complejidad del problema y encontrar formas de abordarlo», concluye Perdikaris, y señala que el campo necesita más que heurística para hacer frente a los desafíos. de esta rama del aprendizaje automático.

* Otras lecturas

Karniadakis, GE, Kevrekidis, IG, Lu, L., Perdikaris, P., Wang, S. y Yang, L.
Aprendizaje automático basado en la física, Revisiones de la naturaleza Física3(6), págs. 422–440 (2021), https://doi.org/10.1038/s42254-021-00314-5

Krishnapriyan, A., Gholami, A., Zhe, S., Kirby, R. y Mahoney, MW
Caracterización de posibles modos de falla en redes neuronales informadas por la física, Actas de avances en sistemas de procesamiento de información neuronal 34 (NeurIPS 2021)https://arxiv.org/abs/2109.01050

Wang, S., Yu, X. y Perdikaris, P.
Cuándo y por qué los PINN no se entrenan: una perspectiva del núcleo tangente neural, Revista de Física Computacional449:110768 (2022), https://arxiv.org/abs/2007.14527

Wight, CL y Zhao, J.
Resolviendo las ecuaciones de Allen-Cahn y Cahn-Hilliard utilizando las redes neuronales informadas por la física adaptativa, Comunicaciones en Física Computacional29(3), págs. 930–954 (2021), https://arxiv.org/abs/2007.04542

Volver arriba

Autor

Chris Edwards es un escritor residente en Surrey, Reino Unido, que informa sobre electrónica, TI y biología sintética.


©2022 ACM 0001-0782/22/5

Se otorga permiso para hacer copias digitales o impresas de parte o la totalidad de este trabajo para uso personal o en el aula sin cargo, siempre que las copias no se hagan o distribuyan con fines de lucro o ventaja comercial y que las copias lleven este aviso y la cita completa en la primera página. Deben respetarse los derechos de autor de los componentes de este trabajo que no pertenezcan a ACM. Se permite hacer resúmenes con crédito. Para copiar de otro modo, volver a publicar, publicar en servidores o redistribuir a listas, se requiere un permiso y/o tarifa específicos previos. Solicite permiso para publicar a permisos@acm.org o envíe un fax al (212) 869-0481.

La Biblioteca digital es una publicación de la Association for Computing Machinery. Derechos de autor © 2022 ACM, Inc.


entradas no encontradas