Los agentes de IA que se "reflejan a sí mismos" se desempeñan mejor en entornos cambiantes

OMS ¿Eligirías ganar en una competencia cara a cara: un agente de inteligencia artificial de última generación o un mouse? Isaac Kauvar, becario postdoctoral interdisciplinario del Instituto de Neurociencias Wu Tsai, y Chris Doyle, investigador de aprendizaje automático en Stanford, decidieron enfrentarlos para averiguarlo. Trabajando en el laboratorio de Nick Haber, profesor asistente en la Escuela de Graduados en Educación de Stanford, Kauvar y Doyle diseñaron una tarea simple basada en su interés de mucho tiempo en un conjunto de habilidades en las que los animales sobresalen naturalmente: explorar y adaptarse a su entorno.

Kauvar colocó un mouse en una pequeña caja vacía y, de manera similar, colocó un agente de IA simulado en una arena virtual 3D vacía. Luego, colocó una bola roja en ambos ambientes. Kauvar midió para ver cuál sería el más rápido en explorar el nuevo objeto.

La prueba mostró que el ratón se acercó rápidamente a la pelota e interactuó repetidamente con ella durante los siguientes minutos. Pero el agente de IA no pareció darse cuenta. “Eso no se esperaba”, dijo Kauvar. “Ya nos estábamos dando cuenta de que, incluso con un algoritmo de última generación, había brechas en el rendimiento”.

Los académicos reflexionaron: ¿Podrían usar comportamientos animales aparentemente simples como inspiración para mejorar los sistemas de IA?

Esa pregunta catalizó a Kauvar, Doyle, el estudiante graduado Linqi Zhou y Haber a diseñar un nuevo método de entrenamiento llamado repetición curiosa, que programa a los agentes de IA para que reflexionen sobre las cosas más novedosas e interesantes que encontraron recientemente. Agregar una repetición curiosa fue todo lo que se necesitó para que el agente de IA se acercara y se enfrentara a la bola roja mucho más rápido. Además, mejoró drásticamente el rendimiento de un juego basado en Minecraft, llamado Crafter. Los resultados de este proyecto, actualmente publicados en servicio de preimpresión arXivse presentará en la Conferencia Internacional sobre Aprendizaje Automático el 25 de julio.

Aprendiendo a través de la curiosidad

Puede parecer que la curiosidad solo ofrece beneficios intelectuales, pero es crucial para nuestra supervivencia, tanto para evitar situaciones peligrosas como para encontrar necesidades como comida y refugio. Esa bola roja en el experimento podría estar derramando un veneno mortal o cubriendo una comida nutritiva, y sería difícil saber cuál si la ignoramos.

Es por eso que laboratorios como el de Haber han agregado recientemente una señal de curiosidad para impulsar el comportamiento de los agentes de IA y, en particular, los agentes de aprendizaje de refuerzo profundo basados en modelos. Esta señal les dice que seleccionen la acción que los conducirá a un resultado más interesante, como abrir una puerta en lugar de ignorarla.

Lea el estudio completo, Curious Replay para la adaptación basada en modelos

Pero esta vez, el equipo usó la curiosidad por la IA de una manera nueva: ayudar al agente a aprender sobre su mundo, no solo a tomar una decisión. “En lugar de elegir qué hacer, queremos elegir en qué pensar, más o menos: de qué experiencias de nuestro pasado queremos aprender”. dijo Kauvar. En otras palabras, querían animar al agente de IA a reflexionar sobre sí mismo, en cierto sentido, sobre sus experiencias más interesantes o peculiares (y, por tanto, relacionadas con la curiosidad). De esa manera, se puede pedir al agente que interactúe con el objeto de diferentes maneras para aprender más, lo que guiaría su comprensión del entorno y tal vez también alentaría la curiosidad hacia elementos adicionales.

Para lograr la autorreflexión de esta manera, los investigadores modificaron un método común utilizado para entrenar a los agentes de IA, llamado repetición de experiencia. Aquí, un agente almacena recuerdos de todas sus interacciones y luego reproduce algunas de ellas al azar para aprender de ellas nuevamente. Se inspiró en la investigación sobre el sueño: los neurocientíficos descubrieron que una región del cerebro llamada hipocampo «reproducirá» los eventos del día (reactivando ciertas neuronas) para fortalecer los recuerdos. En los agentes de IA, la repetición de la experiencia ha llevado a un alto rendimiento en escenarios donde el entorno rara vez cambia y se otorgan recompensas claras por los comportamientos correctos.

Pero para tener éxito en un entorno cambiante, los investigadores razonaron que tendría más sentido que los agentes de IA priorizaran reproducir principalmente las experiencias más interesantes, como la aparición de una nueva bola roja, en lugar de reproducir la sala virtual vacía una y otra vez.

Llamaron a su nuevo método repetición curiosa y descubrieron que funcionaba de inmediato. “Ahora, de repente, el agente interactúa con la pelota mucho más rápido”, dijo Kauvar.

Pero no se detuvieron allí. También agregaron una repetición curiosa a los agentes de IA que jugaban un juego llamado Crafter, una prueba estándar de resolución creativa de problemas para agentes de IA. donde, al igual que en Minecraft, los agentes tienen que descubrir cómo sobrevivir y adaptarse aprendiendo a recolecta madera y piedra, haz un pico y recolecta hierro para hacer herramientas adicionales. El curioso método de repetición impulsó la puntuación de vanguardia actual de alrededor de 14 a 19 (los humanos suelen obtener una puntuación de alrededor de 50), con «solo este cambio», dijo Kauvar.

Un futuro curioso

El éxito del curioso método de reproducción tanto en tareas simples como complejas sugiere que será importante para el avance de una amplia gama de investigaciones de IA. “El objetivo general de este trabajo, crear agentes que puedan aprovechar la experiencia previa y adaptarse bien mediante la exploración eficiente de entornos nuevos o cambiantes, conducirá a tecnologías mucho más adaptables y flexibles, desde robótica doméstica hasta herramientas de aprendizaje personalizadas”, dijo Haber.

Kauvar, cuyo trabajo postdoctoral es asesorado conjuntamente por Haber y el neurocientífico Karl Deisseroth, el profesor DH Chen en los departamentos de Bioingeniería y Psiquiatría, está emocionado de continuar con el tema de inspirarse en el comportamiento animal para mejorar los sistemas de IA; planea continuar probando ratones y agentes de IA en más tareas complicadas para comparar su comportamiento y habilidades. “Muchas personas dicen de boquilla que se inspiran en los animales, pero aquí estamos construyendo un puente directo, no un puente vago. Estamos tratando de hacer exactamente lo mismo [tasks],» él dijo.

Kauvar espera que un trabajo como este ayude a «cerrar el círculo» entre la investigación de la IA y la neurociencia y también beneficie nuestra comprensión del comportamiento animal y los procesos neuronales subyacentes. “Se puede imaginar que todo este enfoque podría generar hipótesis y nuevos experimentos en los que nunca antes se hubiera pensado”, dijo.

La misión de Stanford HAI es promover la investigación, la educación, las políticas y la práctica de la IA para mejorar la condición humana. Aprende más.