Las palabras prueban su valor como herramientas de enseñanza para robots

Al explorar una nueva forma de enseñar a los robots, los investigadores de Princeton descubrieron que las descripciones de herramientas en lenguaje humano pueden acelerar el aprendizaje de un brazo robótico simulado levantando y usando una variedad de herramientas.

Los resultados se basan en la evidencia de que proporcionar información más rica durante el entrenamiento de inteligencia artificial (IA) puede hacer que los robots autónomos se adapten mejor a nuevas situaciones, mejorando su seguridad y eficacia.

Agregar descripciones de la forma y función de una herramienta al proceso de entrenamiento del robot mejoró la capacidad del robot para manipular herramientas recién encontradas que no estaban en el conjunto de entrenamiento original. Un equipo de ingenieros mecánicos e informáticos presentó el nuevo método, Aprendizaje acelerado de manipulación de herramientas con lenguaje, o ATLA, en la Conferencia sobre aprendizaje de robots el 14 de diciembre.

Los brazos robóticos tienen un gran potencial para ayudar con tareas repetitivas o desafiantes, pero entrenar a los robots para que manipulen herramientas de manera efectiva es difícil: las herramientas tienen una amplia variedad de formas, y la destreza y la visión de un robot no pueden competir con las de un humano.

«La información adicional en forma de lenguaje puede ayudar a un robot a aprender a usar las herramientas más rápidamente», dijo la coautora del estudio Anirudha Majumdar, profesora asistente de ingeniería mecánica y aeroespacial en Princeton que dirige el Laboratorio de movimiento de robots inteligentes.

El equipo obtuvo descripciones de herramientas consultando GPT-3, un modelo de lenguaje grande lanzado por OpenAI en 2020 que utiliza una forma de IA llamada aprendizaje profundo para generar texto en respuesta a un mensaje. Después de experimentar con varias indicaciones, decidieron usar «Describe el [feature] de [tool] en una respuesta detallada y científica», donde la característica era la forma o el propósito de la herramienta.

«Debido a que estos modelos de lenguaje han sido entrenados en Internet, en cierto sentido se puede pensar en esto como una forma diferente de recuperar esa información», de manera más eficiente y completa que usar crowdsourcing o rastrear sitios web específicos para obtener descripciones de herramientas, dijo Karthik Narasimhan, un profesor asistente de informática y coautor del estudio. Narasimhan es miembro principal de la facultad en el grupo de procesamiento de lenguaje natural (NLP) de Princeton y contribuyó al modelo de lenguaje GPT original como científico investigador visitante en OpenAI.

Este trabajo es la primera colaboración entre los grupos de investigación de Narasimhan y Majumdar. Majumdar se centra en el desarrollo de políticas basadas en IA para ayudar a los robots, incluidos los robots voladores y ambulantes, a generalizar sus funciones a nuevos entornos, y tenía curiosidad sobre el potencial del reciente «progreso masivo en el procesamiento del lenguaje natural» para beneficiar el aprendizaje de los robots. dijo.

Para sus experimentos de aprendizaje de robots simulados, el equipo seleccionó un conjunto de entrenamiento de 27 herramientas, que van desde un hacha hasta una escobilla de goma. Le dieron al brazo robótico cuatro tareas diferentes: empujar la herramienta, levantar la herramienta, usarla para barrer un cilindro a lo largo de una mesa o clavar una clavija en un agujero. Los investigadores desarrollaron un conjunto de políticas utilizando enfoques de capacitación de aprendizaje automático con y sin información de idioma, y luego compararon el rendimiento de las políticas en un conjunto de prueba separado de nueve herramientas con descripciones emparejadas.

Este enfoque se conoce como metaaprendizaje, ya que el robot mejora su capacidad de aprender con cada tarea sucesiva. No es solo aprender a usar cada herramienta, sino también «tratar de aprender a comprender las descripciones de cada una de estas cien herramientas diferentes, de modo que cuando vea la herramienta 101 aprenda a usar la nueva más rápido», dijo Narasimhan. «Estamos haciendo dos cosas: le estamos enseñando al robot cómo usar las herramientas, pero también le estamos enseñando inglés».

Los investigadores midieron el éxito del robot al empujar, levantar, barrer y martillar con las nueve herramientas de prueba, comparando los resultados obtenidos con las políticas que usaban lenguaje en el proceso de aprendizaje automático con aquellas que no usaban información de lenguaje. En la mayoría de los casos, la información del idioma ofreció ventajas significativas para la capacidad del robot para utilizar nuevas herramientas.

Una tarea que mostró diferencias notables entre las políticas fue usar una palanca para barrer un cilindro o botella a lo largo de una mesa, dijo Allen Z. Ren, Ph.D. estudiante en el grupo de Majumdar y autor principal del trabajo de investigación.

«Con el entrenamiento del idioma, aprende a agarrar el extremo largo de la palanca y usar la superficie curva para restringir mejor el movimiento de la botella», dijo Ren. «Sin el lenguaje, agarraba la palanca cerca de la superficie curva y era más difícil de controlar».

La investigación fue apoyada en parte por el Toyota Research Institute (TRI) y es parte de un proyecto más grande financiado por TRI en el grupo de investigación de Majumdar destinado a mejorar la capacidad de los robots para funcionar en situaciones novedosas que difieren de sus entornos de entrenamiento.

«El objetivo general es lograr que los sistemas robóticos, específicamente, los que están entrenados mediante el aprendizaje automático, se generalicen a nuevos entornos», dijo Majumdar. Otro trabajo respaldado por TRI realizado por su grupo abordó la predicción de fallas para el control de robots basado en la visión y utilizó un enfoque de «generación de entornos adversos» para ayudar a que las políticas de robots funcionen mejor en condiciones fuera de su entrenamiento inicial.

El artículo, Aprovechar el lenguaje para acelerar el aprendizaje de la manipulación de herramientas, se presentó el 14 de diciembre en la Conferencia sobre aprendizaje de robots. Además de Majumdar, Narasimhan y Ren, los coautores incluyen a Bharat Govil, Clase de Princeton de 2022, y Tsung-Yen Yang, quien completó un Ph.D. en ingeniería eléctrica en Princeton este año y ahora es científico de aprendizaje automático en Meta Platforms Inc.

Además del TRI, la Fundación Nacional de Ciencias de EE. UU., la Oficina de Investigación Naval y la Escuela de Ingeniería y Ciencias Aplicadas de la Universidad de Princeton brindaron apoyo para la investigación gracias a la generosidad de William Addy ’82.