Un enfoque con visión de futuro para el aprendizaje automático

Imagina dos equipos enfrentándose en un campo de fútbol. Los jugadores pueden cooperar para lograr un objetivo y competir contra otros jugadores con intereses en conflicto. Así es como funciona el juego.

Crear agentes de inteligencia artificial que puedan aprender a competir y cooperar con la misma eficacia que los humanos sigue siendo un problema espinoso. Un desafío clave es permitir que los agentes de IA anticipen comportamientos futuros de otros agentes cuando todos están aprendiendo simultáneamente.

Debido a la complejidad de este problema, los enfoques actuales tienden a ser miopes; los agentes solo pueden adivinar los próximos movimientos de sus compañeros de equipo o competidores, lo que conduce a un rendimiento deficiente a largo plazo.

Investigadores del MIT, el MIT-IBM Watson AI Lab y otros lugares han desarrollado un nuevo enfoque que brinda a los agentes de IA una perspectiva con visión de futuro. Su marco de aprendizaje automático permite a los agentes de IA cooperativos o competitivos considerar lo que harán otros agentes a medida que el tiempo se acerca al infinito, no solo en unos pocos pasos siguientes. Luego, los agentes adaptan sus comportamientos en consecuencia para influir en los comportamientos futuros de otros agentes y llegar a una solución óptima a largo plazo.

Este marco podría ser utilizado por un grupo de drones autónomos que trabajen juntos para encontrar a un excursionista perdido en un bosque espeso, o por automóviles autónomos que se esfuercen por mantener seguros a los pasajeros al anticipar los movimientos futuros de otros vehículos que circulan por una carretera concurrida.

“Cuando los agentes de IA cooperan o compiten, lo que más importa es cuándo sus comportamientos convergen en algún momento en el futuro. Hay muchos comportamientos transitorios en el camino que no importan mucho a largo plazo. Alcanzar este comportamiento convergente es lo que realmente nos importa, y ahora tenemos una forma matemática de habilitarlo”, dice Dong-Ki Kim, estudiante de posgrado en el Laboratorio de Sistemas de Información y Decisión (LIDS) del MIT y autor principal de un artículo. describiendo este marco.

El autor principal es Jonathan P. How, profesor de aeronáutica y astronáutica Richard C. Maclaurin y miembro del MIT-IBM Watson AI Lab. Los coautores incluyen a otros en el MIT-IBM Watson AI Lab, IBM Research, el Instituto de Inteligencia Artificial Mila-Quebec y la Universidad de Oxford. La investigación será presentada en la Conferencia sobre Sistemas de Procesamiento de Información Neural.

Reproduce el video

En este video de demostración, el robot rojo, que ha sido entrenado con el sistema de aprendizaje automático de los investigadores, puede derrotar al robot verde al aprender comportamientos más efectivos que aprovechan la estrategia en constante cambio de su oponente.

Más agentes, más problemas

Los investigadores se centraron en un problema conocido como aprendizaje por refuerzo multiagente. El aprendizaje por refuerzo es una forma de aprendizaje automático en la que un agente de IA aprende por ensayo y error. Los investigadores le dan al agente una recompensa por los «buenos» comportamientos que lo ayudan a lograr una meta. El agente adapta su comportamiento para maximizar esa recompensa hasta que finalmente se convierte en un experto en una tarea.

Pero cuando muchos agentes cooperativos o competidores están aprendiendo simultáneamente, las cosas se vuelven cada vez más complejas. A medida que los agentes consideran más pasos futuros de sus compañeros agentes y cómo su propio comportamiento influye en los demás, el problema pronto requiere demasiado poder computacional para resolverlo de manera eficiente. Es por eso que otros enfoques solo se enfocan en el corto plazo.

“Las IA realmente quieren pensar en el final del juego, pero no saben cuándo terminará. Necesitan pensar en cómo seguir adaptando su comportamiento hasta el infinito para poder ganar en algún momento lejano en el futuro. Nuestro artículo propone esencialmente un nuevo objetivo que permite a una IA pensar en el infinito”, dice Kim.

Pero como es imposible conectar el infinito en un algoritmo, los investigadores diseñaron su sistema para que los agentes se centren en un punto futuro donde su comportamiento convergerá con el de otros agentes, conocido como equilibrio. Un punto de equilibrio determina el desempeño a largo plazo de los agentes, y pueden existir múltiples equilibrios en un escenario multiagente. Por lo tanto, un agente efectivo influye activamente en los comportamientos futuros de otros agentes de tal manera que alcancen un equilibrio deseable desde la perspectiva del agente. Si todos los agentes se influyen entre sí, convergen en un concepto general que los investigadores denominan “equilibrio activo”.

El marco de aprendizaje automático que desarrollaron, conocido como FURTHER (que significa FUlly Reinforcing acTive influence with averagE Reward), permite a los agentes aprender a adaptar sus comportamientos a medida que interactúan con otros agentes para lograr este equilibrio activo.

ADEMÁS hace esto usando dos módulos de aprendizaje automático. El primero, un módulo de inferencia, permite a un agente adivinar los comportamientos futuros de otros agentes y los algoritmos de aprendizaje que utilizan, basándose únicamente en sus acciones anteriores.

Esta información se introduce en el módulo de aprendizaje por refuerzo, que el agente utiliza para adaptar su comportamiento e influir en otros agentes de forma que maximice su recompensa.

“El desafío era pensar en el infinito. Tuvimos que usar muchas herramientas matemáticas diferentes para habilitar eso, y hacer algunas suposiciones para que funcionara en la práctica”, dice Kim.

Ganar a la larga

Probaron su enfoque frente a otros marcos de trabajo de aprendizaje por refuerzo de múltiples agentes en varios escenarios diferentes, incluido un par de robots que luchaban al estilo sumo y una batalla que enfrentaba a dos equipos de 25 agentes entre sí. En ambos casos, los agentes de IA que usaron ADEMÁS ganaron los juegos con más frecuencia.

Dado que su enfoque es descentralizado, lo que significa que los agentes aprenden a ganar los juegos de forma independiente, también es más escalable que otros métodos que requieren una computadora central para controlar a los agentes, explica Kim.

Los investigadores usaron juegos para probar su enfoque, pero ADEMÁS podrían usarse para abordar cualquier tipo de problema de múltiples agentes. Por ejemplo, podría ser aplicado por economistas que buscan desarrollar políticas sólidas en situaciones donde muchos derechos que interactúan tienen comportamientos e intereses que cambian con el tiempo.

La economía es una aplicación que a Kim le emociona especialmente estudiar. También quiere profundizar en el concepto de un equilibrio activo y continuar mejorando el marco MÁS ADELANTE.

Esta investigación está financiada, en parte, por el MIT-IBM Watson AI Lab.