¿Puede RL de Pixels ser tan eficiente como RL del Estado? – El Blog de Investigación de Inteligencia Artificial de Berkeley

 

Una característica notable de la inteligencia humana es nuestra capacidad para aprender tareas
rápidamente. La mayoría de los humanos pueden aprender habilidades razonablemente complejas como el uso de herramientas y
juego en pocas horas, y entender lo básico después de sólo unas pocas
intentos. Esto sugiere que el aprendizaje con datos eficientes puede ser una parte significativa
de desarrollar una inteligencia más amplia.

Por otro lado, los algoritmos de Aprendizaje de Refuerzo Profundo (RL) pueden lograr
la actuación sobrehumana en juegos como Atari, Starcraft, Dota y Go, pero
requieren grandes cantidades de datos para llegar allí. Lograr un rendimiento sobrehumano en
Dota se hizo cargo 10.000 años humanos de juego. A diferencia de la simulación, la habilidad
la adquisición en el mundo real está limitada a la hora del reloj de pared. Con el fin de
ver avances similares a AlphaGo en escenarios del mundo real, como la robótica
manipulación y navegación autónoma de vehículos, los algoritmos RL deben ser
datos eficientes – necesitan aprender políticas efectivas dentro de un razonable
cantidad de tiempo.




Recomendado: ¿Qué es el Big data?.


Hasta la fecha, se ha asumido comúnmente que la RL que opera en estado de coordenadas es
significativamente más eficiente en cuanto a datos que la RL basada en píxeles. Sin embargo, las coordenadas
El estado es sólo una representación humana de información visual. En
principio, si el medio ambiente es totalmente observable, también deberíamos ser capaces de
aprender representaciones que capturen el estado.

Recientemente, ha habido varios avances algorítmicos en Deep RL que han
mejoró las políticas de aprendizaje a partir de los píxeles. Los métodos se dividen en dos categorías:
(i) algoritmos sin modelo y (ii) algoritmos basados en modelos (MBRL). Los principales
La diferencia entre los dos es que los métodos basados en modelos aprenden un futuro
modelo de transición $p(s_{t+1}|,s_t,a_t)$ mientras que los que no tienen modelo no lo tienen. El aprendizaje de un
El modelo tiene varias ventajas claras. En primer lugar, es posible utilizar el modelo
para planificar a través de secuencias de acción, generar despliegues ficticios como una forma de
aumento de los datos, y dar forma temporal al espacio latente aprendiendo un modelo.

Sin embargo, una clara desventaja de la LR basada en modelos es la complejidad. Basada en un modelo
Los métodos que operan sobre los píxeles requieren el aprendizaje de un modelo, un esquema de codificación, un
política, varias tareas auxiliares como la predicción de recompensas, y coser estas
partes juntas para hacer un algoritmo completo. Los métodos visuales del MBRL tienen un montón de
partes móviles y tienden a ser menos estables. Por otro lado, los métodos sin modelo
como Deep Q Networks (DQN), Proximal Policy Optimization (PPO), y Soft
Los Actores Críticos (SAC) aprenden una política de principio a fin optimizando para uno
objetivo. Mientras que tradicionalmente, la simplicidad de la RL sin modelo ha llegado a la
costo de la eficiencia de la muestra, las recientes mejoras han demostrado que la
los métodos pueden ser de hecho más eficientes que el MBRL y, lo que es más sorprendente,
dan lugar a políticas que son tan eficientes en cuanto a los datos como las políticas capacitadas en la coordinación
estado. En lo que sigue nos centraremos en estos recientes avances en la
RL sin modelo.



En los últimos años, dos tendencias han convergido para hacer que los datos sean eficientes
RL visual posible. En primer lugar, los algoritmos de RL de extremo a extremo se han convertido cada vez más
más estable a través de algoritmos como el Rainbow DQN, TD3 y SAC. Segundo,
ha habido un tremendo progreso en el aprendizaje de la etiqueta para la imagen
clasificación usando representaciones contrastadas no supervisadas (CPCv2, MoCo,
SimCLR) y aumento de datos (MixUp, AutoAugment, RandAugment). En trabajos recientes
desde nuestro laboratorio en BAIR (CURL, RAD), combinamos el aprendizaje contrastado y los datos
técnicas de aumento de la visión por ordenador con RL sin modelo para mostrar
importantes ganancias en la eficiencia de los datos en puntos de referencia comunes de RL como Atari, DeepMind
control, ProcGen, y el gimnasio OpenAI.

CURL se inspiró en los recientes avances en el aprendizaje de la representación contrastiva en
visión por ordenador (CPC, CPCv2, MoCo, SimCLR). El aprendizaje contrastivo tiene como objetivo
maximizar / minimizar la similitud entre dos representaciones similares / disímiles
de una imagen. Por ejemplo, en el MoCo y el SimCLR, el objetivo es maximizar
acuerdo entre dos versiones aumentadas de datos de la misma imagen y minimizarla
entre todas las demás imágenes del conjunto de datos, donde la optimización se realiza con un
Pérdida de la Estimación Contrastante de Ruido. A través del aumento de datos, estos
representaciones internalizan poderosos sesgos inductivos sobre la invariancia en la
conjunto de datos.

En el escenario de RL, optamos por un enfoque similar y adoptamos el impulso
mecanismo de contraste (MoCo), un popular método de aprendizaje por contraste en la computadora
visión que utiliza un promedio móvil de los parámetros del codificador de consulta (momento) para
codificar las claves para estabilizar el entrenamiento. Hay dos diferencias principales en la configuración:
(i) el conjunto de datos de RL cambia dinámicamente y (ii) el RL visual es típicamente
realizadas en pilas de cuadros para acceder a información temporal como las velocidades.
En lugar de separar el aprendizaje contrastado de la tarea de abajo como se hizo en
visión, aprendemos representaciones contrastadas conjuntamente con el objetivo de RL.
En lugar de discriminar a través de imágenes individuales, discriminamos a través de la
pila de marcos.



Combinando el aprendizaje contrastivo con la RL profunda de la manera anterior que encontramos,
por primera vez, esa RL basada en píxeles puede ser casi tan eficiente en cuanto a datos como
RL con base en el estado
en la suite de control de DeepMind. En la figura de abajo,
mostramos las curvas de aprendizaje para las tareas de control de DeepMind donde el aprendizaje contrastado
está acoplada con SAC (rojo) y comparada con la SAC basada en el estado (gris).



También demostramos el aumento de la eficiencia de los datos en el punto de referencia de los 100k pasos de Atari. En
en este escenario, unimos CURL con un Arco Iris Eficiente DQN (Eff. Rainbow) y
muestran que el CURL supera el anterior estado del arte (Eff. Rainbow, SimPLe) en
20 de 26 juegos probados.

Dado que el cultivo aleatorio era un componente crucial en el CURL, es natural que
pregunta – ¿podemos lograr los mismos resultados sólo con el aumento de los datos? En
Reforzando el aprendizaje con datos aumentados (RAD), realizamos la primera
estudio extensivo de aumento de datos en Deep RL y encontró que para la Mente Profunda
de control, la respuesta es sí. El aumento de datos por sí solo puede superar
métodos anteriores que compiten entre sí, igualan y a veces superan la eficiencia de
RL con base en el estado. Resultados similares también se mostraron en trabajos concurrentes – DrQ.



Encontramos que RAD también mejora la generalización en la suite de juegos ProcGen,
mostrando que el aumento de los datos no se limita a mejorar la eficiencia de los mismos sino que
también ayuda a los métodos de RL a generalizarse a los entornos de prueba.



Si el aumento de datos funciona para la RL basada en píxeles, ¿puede también mejorar la RL basada en estados
métodos? Introdujimos un nuevo aumento basado en el estado – amplitud aleatoria
escalada
– y demostró que una simple RL con aumento de datos basado en el estado
logra resultados de vanguardia en los entornos de los gimnasios de OpenAI y supera
algoritmos RL más complejos sin modelos y basados en modelos.



Si el aumento de datos con RL funciona tan bien, ¿necesitamos una supervisión
aprendizaje de representación? El RAD supera al CURL porque sólo optimiza para
lo que nos importa, que es la recompensa de la tarea. CURL, por otro lado, conjuntamente
optimiza los objetivos de refuerzo y de aprendizaje contrastado. Si la métrica
utilizado para evaluar y comparar estos métodos es la puntuación obtenida en la tarea en
mano, se espera que un método que se centra puramente en la optimización de la recompensa sea
mejor, siempre y cuando implícitamente asegure la similitud de las consistencias en el
vistas aumentadas.

Sin embargo, muchos problemas en RL no se pueden resolver sólo con aumentos de datos.
Por ejemplo, la RAD no sería aplicable a los entornos con escasos beneficios o
no hay ninguna recompensa, porque aprende la consistencia de la similitud implícitamente a través de
las observaciones acopladas a una señal de recompensa. Por otro lado, el contraste
El objetivo de aprendizaje en el CURL internaliza las invariantes explícitamente y por lo tanto es
capaz de aprender representaciones semánticas de observaciones de alta dimensión
…se reunieron en cualquier despliegue sin importar la señal de recompensa. Sin supervisión
Por lo tanto, el aprendizaje de la representación puede ser más adecuado para las tareas del mundo real,
como la manipulación robótica, donde la recompensa del medio ambiente es más probable que sea
escasos o ausentes.


Este puesto se basa en los siguientes documentos:

  • CURL: Representaciones contrastivas no supervisadas para el aprendizaje de refuerzo
    Michael Laskin*, Aravind Srinivas*, Pieter Abbeel
    37ª Conferencia Internacional de Aprendizaje Automático (ICML), 2020.
    arXiv, sitio web del proyecto
  • Refuerzo del aprendizaje con datos aumentados
    Michael Laskin*, Kimin Lee*, Adam Stooke, Lerrel Pinto, Pieter Abbeel, Aravind Srinivas
    arXiv, sitio web del proyecto

Referencias

 

    1. Hafner y otros. Aprendiendo la dinámica latente para la planificación de los píxeles. ICML 2019.
    2. Hafner et al. Sueño a Control: Aprendiendo comportamientos por medio de la imaginación latente. ICLR 2020.
    3. Kaiser y otros. Aprendizaje de refuerzo basado en modelos para Atari. ICLR 2020.
    4. Lee et al. Actor Crítico Latente Estocástico: Deep Reinforcement Learning with a Latent Variable Model. arXiv 2019.
    5. Henaff y otros. Reconocimiento de imágenes eficiente con codificación contrastiva predictiva. ICML 2020.
    6. He et al. Momentum Contrast for Unsupervised Visual Representation Learning. CVPR 2020.
    7. Chen y otros. Un marco simple para el aprendizaje contrastivo de las representaciones visuales. ICML 2020.
    8. Kostrikov y otros. El aumento de la imagen es todo lo que necesitas: Regularizar el refuerzo profundo aprendiendo de los píxeles. arXiv 2020.