Saltar al contenido

Cómo entrenar a un robot (usando inteligencia artificial y supercomputadoras) – ScienceDaily

29 de enero de 2021

Antes de unirse a la Universidad de Texas en Arlington como profesor asistente en el Departamento de Ciencias de la Computación e Ingeniería y fundar el Laboratorio de Visión Robótica allí, William Beksi hizo una pasantía en iRobot, el mayor productor mundial de robots de consumo (principalmente a través de su aspiradora robótica Roomba) .

Para navegar en entornos construidos, los robots deben poder detectar y tomar decisiones sobre cómo interactuar con su ubicación. Los investigadores de la compañía estaban interesados ​​en utilizar la máquina y el aprendizaje profundo para entrenar a sus robots para que aprendan sobre los objetos, pero hacerlo requiere un gran conjunto de datos de imágenes. Si bien hay millones de fotos y videos de habitaciones, ninguna fue tomada desde el punto de vista de una aspiradora robótica. Los esfuerzos para entrenar usando imágenes con perspectivas centradas en el ser humano fracasaron.

La investigación de Beksi se centra en la robótica, la visión por computadora y los sistemas ciberfísicos. «En particular, estoy interesado en desarrollar algoritmos que permitan a las máquinas aprender de sus interacciones con el mundo físico y adquirir de manera autónoma las habilidades necesarias para ejecutar tareas de alto nivel», dijo.

Años más tarde, ahora con un grupo de investigación que incluye seis estudiantes de doctorado en ciencias de la computación, Beksi recordó el problema de formación de Roomba y comenzó a explorar soluciones. Un enfoque manual, utilizado por algunos, implica el uso de una costosa cámara de 360 ​​grados para capturar entornos (incluidas las casas alquiladas de Airbnb) y un software personalizado para unir las imágenes en un todo. Pero Beksi creía que el método de captura manual sería demasiado lento para tener éxito.

En cambio, buscó una forma de aprendizaje profundo conocida como redes generativas adversarias, o GAN, donde dos redes neuronales compiten entre sí en un juego hasta que el ‘generador’ de nuevos datos puede engañar a un ‘discriminador’. Una vez entrenada, dicha red permitiría la creación de un número infinito de posibles habitaciones o entornos al aire libre, con diferentes tipos de sillas o mesas o vehículos con formas ligeramente diferentes, pero aún así, para una persona y un robot, objetos identificables con dimensiones y características reconocibles.

Recomendado:  ¿IA o aumento de la inteligencia para la educación? | blog @ CACM

«Puede perturbar estos objetos, moverlos a nuevas posiciones, usar diferentes luces, colores y texturas, y luego convertirlos en una imagen de entrenamiento que podría usarse en un conjunto de datos», explicó. «Este enfoque proporcionaría potencialmente datos ilimitados para entrenar a un robot».

«Diseñar manualmente estos objetos requeriría una gran cantidad de recursos y horas de trabajo humano, mientras que, si se entrena adecuadamente, las redes generativas pueden fabricarlos en segundos», dijo Mohammad Samiul Arshad, un estudiante graduado del grupo de Beksi involucrado en la investigación.

GENERANDO OBJETOS PARA ESCENAS SINTÉTICAS

Después de algunos intentos iniciales, Beksi se dio cuenta de que su sueño de crear escenas completas fotorrealistas estaba actualmente fuera de su alcance. «Dimos un paso atrás y analizamos la investigación actual para determinar cómo comenzar a una escala más pequeña: generar objetos simples en entornos».

Beksi y Arshad presentaron PCGAN, la primera red adversarial generativa condicional para generar densas nubes de puntos de colores en un modo no supervisado, en la Conferencia Internacional sobre Visión 3D (3DV) en noviembre de 2020. Su artículo, «Una Red Adversarial Generativa Condicional Progresiva para Generar Nubes de puntos 3D densas y coloreadas «, muestra que su red es capaz de aprender de un conjunto de entrenamiento (derivado de ShapeNetCore, una base de datos de modelos CAD) e imitar una distribución de datos 3D para producir nubes de puntos coloreadas con detalles finos en múltiples resoluciones.

«Hubo algún trabajo que podría generar objetos sintéticos a partir de estos conjuntos de datos de modelos CAD», dijo. «Pero nadie todavía podía manejar el color».

Recomendado:  Los investigadores investigan los vínculos entre el reconocimiento facial y la enfermedad de Alzheimer -- ScienceDaily

Para probar su método en una diversidad de formas, el equipo de Beksi eligió sillas, mesas, sofás, aviones y motocicletas para su experimento. La herramienta permite a los investigadores acceder a un número casi infinito de versiones posibles del conjunto de objetos que genera el sistema de aprendizaje profundo.

«Nuestro modelo primero aprende la estructura básica de un objeto a bajas resoluciones y gradualmente se construye hacia detalles de alto nivel», explicó. «La relación entre las partes del objeto y sus colores (por ejemplo, las patas de la silla o la mesa son del mismo color mientras que el asiento o la parte superior contrastan) también se aprende a través de la red. Estamos comenzando con algo pequeño, trabajando con objetos y construir una jerarquía para generar una escena sintética completa que sería extremadamente útil para la robótica «.

Generaron 5,000 muestras aleatorias para cada clase y realizaron una evaluación utilizando varios métodos diferentes. Evaluaron tanto la geometría de la nube de puntos como el color utilizando una variedad de métricas comunes en el campo. Sus resultados mostraron que PCGAN es capaz de sintetizar nubes de puntos de alta calidad para una variedad dispar de clases de objetos.

SIM2REAL

Otro tema en el que Beksi está trabajando se conoce coloquialmente como ‘sim2real’. «Tienes datos de entrenamiento reales y datos de entrenamiento sintéticos, y puede haber diferencias sutiles en cómo un sistema de IA o un robot aprende de ellos», dijo. «‘Sim2real’ analiza cómo cuantificar esas diferencias y hacer que las simulaciones sean más realistas capturando la física de esa escena (fricción, colisiones, gravedad) y utilizando el trazado de rayos o fotones».

Recomendado:  El ingeniero de Google dice que el bot de IA quiere 'servir a la humanidad' pero los expertos lo desestiman | Inteligencia artificial (IA)

El siguiente paso para el equipo de Beksi es implementar el software en un robot y ver cómo funciona en relación con la brecha del dominio sim-real.

El entrenamiento del modelo PCGAN fue posible gracias al recurso de aprendizaje profundo Maverick 2 de TACC, al que Beksi y sus estudiantes pudieron acceder a través del programa de Investigación de Infraestructura Cibernética (UTRC) de la Universidad de Texas, que proporciona recursos informáticos a los investigadores en cualquiera de los sistemas de UT. 14 instituciones.

«Si desea aumentar la resolución para incluir más puntos y más detalles, ese aumento viene con un aumento en el costo computacional», anotó. «No tenemos esos recursos de hardware en mi laboratorio, por lo que era esencial hacer uso de TACC para hacer eso».

Además de las necesidades de computación, Beksi requirió un almacenamiento extenso para la investigación. «Estos conjuntos de datos son enormes, especialmente las nubes de puntos 3D», dijo. «Generamos cientos de megabytes de datos por segundo; cada nube de puntos tiene alrededor de 1 millón de puntos. Necesita una enorme cantidad de almacenamiento para eso».

Si bien Beksi dice que el campo aún está muy lejos de tener robots robustos realmente buenos que puedan ser autónomos durante largos períodos de tiempo, hacerlo beneficiaría a múltiples dominios, incluidos el cuidado de la salud, la manufactura y la agricultura.

«La publicación es sólo un pequeño paso hacia el objetivo final de generar escenas sintéticas de ambientes interiores para mejorar las capacidades de percepción robótica», dijo.