A nadie le gusta sentarse en un semáforo en rojo. Pero las intersecciones señalizadas no son solo una molestia menor para los conductores; los vehículos consumen combustible y emiten gases de efecto invernadero mientras esperan el cambio de semáforo.
¿Qué pasaría si los automovilistas pudieran cronometrar sus viajes para llegar a la intersección cuando el semáforo está en verde? Si bien eso podría ser solo un golpe de suerte para un conductor humano, podría lograrse de manera más consistente mediante un vehículo autónomo que use inteligencia artificial para controlar su velocidad.
En un nuevo estudio, los investigadores del MIT demuestran un enfoque de aprendizaje automático que puede aprender a controlar una flota de vehículos autónomos a medida que se acercan y viajan a través de una intersección señalizada de una manera que mantiene el tráfico fluido.
Usando simulaciones, descubrieron que su enfoque reduce el consumo de combustible y las emisiones al tiempo que mejora la velocidad promedio del vehículo. La técnica obtiene los mejores resultados si todos los automóviles en la carretera son autónomos, pero incluso si solo el 25 por ciento usa su algoritmo de control, aún genera beneficios sustanciales de combustible y emisiones.
“Este es un lugar realmente interesante para intervenir. La vida de nadie es mejor porque estaban atrapados en una intersección. Con muchas otras intervenciones de cambio climático, se espera una diferencia en la calidad de vida, por lo que hay una barrera de entrada allí. Aquí, la barrera es mucho más baja”, dice la autora principal Cathy Wu, profesora asistente de desarrollo profesional de Gilbert W. Winslow en el Departamento de Ingeniería Civil y Ambiental y miembro del Instituto de Datos, Sistemas y Sociedad (IDSS) y el Laboratorio de Sistemas de Información y Decisión (LIDS).
La autora principal del estudio es Vindula Jayawardana, estudiante de posgrado en LIDS y el Departamento de Ingeniería Eléctrica y Ciencias de la Computación. La investigación se presentará en la Conferencia Europea de Control.
Complejidades de intersección
Si bien los humanos pueden pasar una luz verde sin pensarlo mucho, las intersecciones pueden presentar miles de millones de escenarios diferentes según la cantidad de carriles, cómo funcionan las señales, la cantidad de vehículos y sus velocidades, la presencia de peatones y ciclistas, etc.
Los enfoques típicos para abordar los problemas de control de intersecciones usan modelos matemáticos para resolver una intersección ideal simple. Eso se ve bien en el papel, pero es probable que no se sostenga en el mundo real, donde los patrones de tráfico a menudo son tan desordenados como parecen.
Wu y Jayawardana cambiaron de marcha y abordaron el problema utilizando una técnica sin modelo conocida como aprendizaje de refuerzo profundo. El aprendizaje por refuerzo es un método de prueba y error en el que el algoritmo de control aprende a tomar una secuencia de decisiones. Es recompensado cuando encuentra una buena secuencia. Con el aprendizaje de refuerzo profundo, el algoritmo aprovecha las suposiciones aprendidas por una red neuronal para encontrar atajos a buenas secuencias, incluso si hay miles de millones de posibilidades.
Esto es útil para resolver un problema de largo plazo como este; el algoritmo de control debe emitir más de 500 instrucciones de aceleración a un vehículo durante un período de tiempo prolongado, explica Wu.
“Y tenemos que tener la secuencia correcta antes de saber que hemos hecho un buen trabajo mitigando las emisiones y llegando a la intersección a buena velocidad”, agrega.
Pero hay una arruga adicional. Los investigadores quieren que el sistema aprenda una estrategia que reduzca el consumo de combustible y limite el impacto en el tiempo de viaje. Estos objetivos pueden ser contradictorios.
“Para reducir el tiempo de viaje, queremos que el automóvil vaya rápido, pero para reducir las emisiones, queremos que el automóvil disminuya la velocidad o no se mueva en absoluto. Esas recompensas competitivas pueden ser muy confusas para el agente de aprendizaje”, dice Wu.
Si bien es un desafío resolver este problema en toda su generalidad, los investigadores emplearon una solución alternativa utilizando una técnica conocida como modelado de recompensas. Con la configuración de recompensas, le dan al sistema un conocimiento de dominio que no puede aprender por sí solo. En este caso, penalizaban al sistema cada vez que el vehículo se detenía por completo, para que aprendiera a evitar esa acción.
Pruebas de tráfico
Una vez que desarrollaron un algoritmo de control efectivo, lo evaluaron utilizando una plataforma de simulación de tráfico con una sola intersección. El algoritmo de control se aplica a una flota de vehículos autónomos conectados, que pueden comunicarse con los próximos semáforos para recibir información sobre la fase de la señal y el tiempo y observar su entorno inmediato. El algoritmo de control le dice a cada vehículo cómo acelerar y desacelerar.
Su sistema no generaba tráfico intermitente cuando los vehículos se acercaban a la intersección. (El tránsito intermitente se produce cuando los automóviles se ven obligados a detenerse por completo debido a la detención del tránsito). En las simulaciones, más autos lograron pasar en una sola fase verde, lo que superó a un modelo que simula conductores humanos. En comparación con otros métodos de optimización también diseñados para evitar el tráfico intermitente, su técnica dio como resultado una mayor reducción del consumo de combustible y de las emisiones. Si todos los vehículos en la carretera son autónomos, su sistema de control puede reducir el consumo de combustible en un 18 por ciento y las emisiones de dióxido de carbono en un 25 por ciento, mientras aumenta la velocidad de viaje en un 20 por ciento.
“Una sola intervención con una reducción del 20 al 25 por ciento en combustible o emisiones es realmente increíble. Pero lo que encuentro interesante, y realmente esperaba ver, es esta escala no lineal. Si solo controlamos el 25 por ciento de los vehículos, eso nos da el 50 por ciento de los beneficios en términos de reducción de emisiones y combustible. Eso significa que no tenemos que esperar hasta que tengamos vehículos 100 por ciento autónomos para obtener los beneficios de este enfoque”, dice.
Más adelante, los investigadores quieren estudiar los efectos de interacción entre múltiples intersecciones. También planean explorar cómo las diferentes configuraciones de las intersecciones (número de carriles, señales, tiempos, etc.) pueden influir en el tiempo de viaje, las emisiones y el consumo de combustible. Además, tienen la intención de estudiar cómo su sistema de control podría afectar la seguridad cuando los vehículos autónomos y los conductores humanos comparten la carretera. Por ejemplo, a pesar de que los vehículos autónomos pueden conducir de manera diferente a los conductores humanos, las carreteras más lentas y las carreteras con velocidades más constantes podrían mejorar la seguridad, dice Wu.
Si bien este trabajo aún se encuentra en sus primeras etapas, Wu ve este enfoque como uno que podría implementarse de manera más factible en el corto plazo.
“El objetivo de este trabajo es mover la aguja en movilidad sostenible. Nosotros también queremos soñar, pero estos sistemas son grandes monstruos de inercia. Identificar puntos de intervención que son pequeños cambios en el sistema pero que tienen un impacto significativo es algo que me levanta por la mañana”, dice.
Este trabajo fue apoyado, en parte, por el MIT-IBM Watson AI Lab.