Imagina comprar un robot para realizar tareas domésticas. Este robot fue construido y entrenado en una fábrica en un determinado conjunto de tareas y nunca ha visto los artículos en su hogar. Cuando le pides que recoja una taza de la mesa de tu cocina, es posible que no la reconozca (tal vez porque esta taza está pintada con una imagen inusual, por ejemplo, de la mascota del MIT, Tim the Beaver). Entonces, el robot falla.
“En este momento, la forma en que entrenamos a estos robots, cuando fallan, realmente no sabemos por qué. Así que simplemente levantarías las manos y dirías: ‘Está bien, creo que tenemos que empezar de nuevo’. Un componente crítico que falta en este sistema es permitir que el robot demuestre por qué está fallando para que el usuario pueda darle retroalimentación”, dice Andi Peng, estudiante de posgrado en ingeniería eléctrica e informática (EECS) en el MIT.
Peng y sus colaboradores del MIT, la Universidad de Nueva York y la Universidad de California en Berkeley crearon un marco que permite a los humanos enseñar rápidamente a un robot lo que quieren que haga, con un esfuerzo mínimo.
Cuando un robot falla, el sistema utiliza un algoritmo para generar explicaciones contrafactuales que describen lo que se necesita cambiar para que el robot tenga éxito. Por ejemplo, tal vez el robot hubiera podido levantar la taza si la taza fuera de cierto color. Muestra estos contrafactuales al humano y solicita comentarios sobre por qué falló el robot. Luego, el sistema utiliza esta retroalimentación y las explicaciones contrafácticas para generar nuevos datos que utiliza para ajustar el robot.
El ajuste fino implica ajustar un modelo de aprendizaje automático que ya ha sido entrenado para realizar una tarea, de modo que pueda realizar una segunda tarea similar.
Los investigadores probaron esta técnica en simulaciones y descubrieron que podía enseñar a un robot de manera más eficiente que otros métodos. Los robots entrenados con este marco se desempeñaron mejor, mientras que el proceso de entrenamiento consumió menos tiempo humano.
Este marco podría ayudar a los robots a aprender más rápido en nuevos entornos sin requerir que el usuario tenga conocimientos técnicos. A largo plazo, esto podría ser un paso para permitir que los robots de uso general realicen de manera eficiente las tareas diarias para personas mayores o personas con discapacidades en una variedad de entornos.
Peng, el autor principal, se une a los coautores Aviv Netanyahu, un estudiante graduado de EECS; Mark Ho, profesor asistente en el Instituto de Tecnología Stevens; Tianmin Shu, un postdoctorado del MIT; Andreea Bobu, estudiante de posgrado en UC Berkeley; y los autores principales Julie Shah, profesora de aeronáutica y astronáutica del MIT y directora del Grupo de Robótica Interactiva en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL), y Pulkit Agrawal, profesor de CSAIL. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.
En el trabajo de formación
Los robots a menudo fallan debido al cambio de distribución: al robot se le presentan objetos y espacios que no vio durante el entrenamiento y no entiende qué hacer en este nuevo entorno.
Una forma de volver a entrenar a un robot para una tarea específica es el aprendizaje por imitación. El usuario podría demostrar la tarea correcta para enseñarle al robot qué hacer. Si un usuario intenta enseñarle a un robot a levantar una taza, pero lo demuestra con una taza blanca, el robot podría aprender que todas las tazas son blancas. Entonces puede fallar al recoger una taza roja, azul o «Tim-the-Beaver-brown».
Entrenar a un robot para que reconozca que una taza es una taza, independientemente de su color, podría requerir miles de demostraciones.
«No quiero tener que demostrar con 30.000 tazas. Quiero demostrar con una sola taza. Pero luego necesito enseñarle al robot para que reconozca que puede recoger una taza de cualquier color», dice Peng.
Para lograr esto, el sistema de los investigadores determina qué objeto específico le importa al usuario (una taza) y qué elementos no son importantes para la tarea (quizás el color de la taza no importa). Utiliza esta información para generar nuevos datos sintéticos al cambiar estos conceptos visuales «sin importancia». Este proceso se conoce como aumento de datos.
El marco tiene tres pasos. Primero, muestra la tarea que provocó la falla del robot. Luego recopila una demostración del usuario de las acciones deseadas y genera contrafactuales mediante la búsqueda de todas las características en el espacio que muestran lo que se necesita cambiar para que el robot tenga éxito.
El sistema muestra estos contrafactuales al usuario y solicita retroalimentación para determinar qué conceptos visuales no impactan en la acción deseada. Luego utiliza esta retroalimentación humana para generar muchas nuevas demostraciones aumentadas.
De esta forma, el usuario podría demostrar que levanta una taza, pero el sistema produciría demostraciones mostrando la acción deseada con miles de tazas diferentes alterando el color. Utiliza estos datos para ajustar el robot.
La creación de explicaciones contrafactuales y la solicitud de comentarios del usuario son fundamentales para que la técnica tenga éxito, dice Peng.
Del razonamiento humano al razonamiento robótico
Debido a que su trabajo busca poner al humano en el circuito de entrenamiento, los investigadores probaron su técnica con usuarios humanos. Primero realizaron un estudio en el que preguntaron a las personas si las explicaciones contrafactuales les ayudaron a identificar elementos que podrían cambiarse sin afectar la tarea.
«Fue muy claro desde el principio. Los humanos son muy buenos en este tipo de razonamiento contrafactual. Y este paso contrafactual es lo que permite que el razonamiento humano se traduzca en razonamiento robótico de una manera que tenga sentido», dice ella.
Luego aplicaron su marco a tres simulaciones en las que los robots tenían la tarea de: navegar hacia un objeto objetivo, recoger una llave y abrir una puerta, y recoger un objeto deseado y luego colocarlo sobre una mesa. En cada caso, su método permitió que el robot aprendiera más rápido que con otras técnicas, al tiempo que requería menos demostraciones por parte de los usuarios.
En el futuro, los investigadores esperan probar este marco en robots reales. También quieren centrarse en reducir el tiempo que tarda el sistema en crear nuevos datos utilizando modelos generativos de aprendizaje automático.
«Queremos que los robots hagan lo que hacen los humanos, y queremos que lo hagan de una manera semánticamente significativa. Los humanos tienden a operar en este espacio abstracto, donde no piensan en todas las propiedades de una imagen. Al final del día, se trata realmente de permitir que un robot aprenda una buena representación similar a la humana en un nivel abstracto», dice Peng.
Esta investigación cuenta con el apoyo, en parte, de una beca de investigación para graduados de la Fundación Nacional de Ciencias, Open Philanthropy, una beca de Apple AI/ML, Hyundai Motor Corporation, el MIT-IBM Watson AI Lab y el Instituto de la Fundación Nacional de Ciencias para Inteligencia Artificial y Fundamental. Interacciones.