Predecir lo que alguien está a punto de hacer a continuación en función de su lenguaje corporal es algo natural para los humanos, pero no así para las computadoras. Cuando conocemos a otra persona, puede que nos salude con un saludo, un apretón de manos o incluso un puñetazo. Es posible que no sepamos qué gesto se utilizará, pero podemos leer la situación y responder de manera adecuada.
En un nuevo estudio, los investigadores de Columbia Engineering presentan una técnica de visión por computadora para dar a las máquinas un sentido más intuitivo de lo que sucederá a continuación al aprovechar las asociaciones de alto nivel entre personas, animales y objetos.
«Nuestro algoritmo es un paso hacia que las máquinas puedan hacer mejores predicciones sobre el comportamiento humano y, por lo tanto, coordinar mejor sus acciones con las nuestras», dijo Carl Vondrick, profesor asistente de informática en Columbia, quien dirigió el estudio, que se presentó en la Conferencia internacional sobre visión artificial y reconocimiento de patrones el 24 de junio de 2021. «Nuestros resultados abren una serie de posibilidades para la colaboración humano-robot, los vehículos autónomos y la tecnología de asistencia».
Es el método más preciso hasta la fecha para predecir eventos de acción de video hasta varios minutos en el futuro, dicen los investigadores. Después de analizar miles de horas de películas, juegos deportivos y programas como «The Office», el sistema aprende a predecir cientos de actividades, desde apretones de manos hasta choques de puños. Cuando no puede predecir la acción específica, encuentra el concepto de nivel superior que los vincula, en este caso, la palabra «saludo».
Los intentos anteriores de aprendizaje automático predictivo, incluidos los del equipo, se han centrado en predecir solo una acción a la vez. Los algoritmos deciden si clasificar la acción como un abrazo, chocar los cinco, apretón de manos o incluso una no acción como «ignorar». Pero cuando la incertidumbre es alta, la mayoría de los modelos de aprendizaje automático no pueden encontrar puntos en común entre las posibles opciones.
Los estudiantes de doctorado en ingeniería de Columbia, Didac Suris y Ruoshi Liu, decidieron analizar el problema de predicción de mayor alcance desde un ángulo diferente. «No todo en el futuro es predecible», dijo Suris, coautor principal del artículo. «Cuando una persona no puede prever exactamente lo que sucederá, juega a lo seguro y predice a un nivel más alto de abstracción. Nuestro algoritmo es el primero en aprender esta capacidad de razonar de manera abstracta sobre eventos futuros».
Suris y Liu tuvieron que volver a examinar cuestiones matemáticas que se remontan a los antiguos griegos. En la escuela secundaria, los estudiantes aprenden las reglas familiares e intuitivas de la geometría: que las líneas rectas van rectas, que las líneas paralelas nunca se cruzan. La mayoría de los sistemas de aprendizaje automático también obedecen estas reglas. Pero otras geometrías, sin embargo, tienen propiedades extrañas y contrarias a la intuición; las líneas rectas se doblan y los triángulos sobresalen. Suris y Liu utilizaron estas geometrías inusuales para construir modelos de IA que organizan conceptos de alto nivel y predicen el comportamiento humano en el futuro.
«La predicción es la base de la inteligencia humana», dijo Aude Oliva, investigadora científica principal del Instituto de Tecnología de Massachusetts y codirectora del MIT-IBM Watson AI Lab, una experta en inteligencia artificial y cognición humana que no participó en el estudio. . «Las máquinas cometen errores que los humanos nunca cometerían porque carecen de nuestra capacidad para razonar de manera abstracta. Este trabajo es un paso fundamental para cerrar esta brecha tecnológica».
El marco matemático desarrollado por los investigadores permite a las máquinas organizar eventos según su predecibilidad en el futuro. Por ejemplo, sabemos que nadar y correr son ambas formas de ejercicio. La nueva técnica aprende a categorizar estas actividades por sí sola. El sistema es consciente de la incertidumbre, proporcionando acciones más específicas cuando hay certeza y predicciones más genéricas cuando no las hay.
La técnica podría acercar a las computadoras a poder evaluar una situación y tomar una decisión matizada, en lugar de una acción preprogramada, dicen los investigadores. Es un paso crítico para generar confianza entre humanos y computadoras, dijo Liu, coautor principal del artículo. «La confianza proviene de la sensación de que el robot realmente comprende a las personas», explicó. «Si las máquinas pueden comprender y anticipar nuestros comportamientos, las computadoras podrán ayudar sin problemas a las personas en la actividad diaria».
Si bien el nuevo algoritmo hace predicciones más precisas en las tareas de referencia que los métodos anteriores, los siguientes pasos son verificar que funcione fuera del laboratorio, dice Vondrick. Si el sistema puede funcionar en diversos entornos, hay muchas posibilidades de implementar máquinas y robots que podrían mejorar nuestra seguridad, salud y seguridad, dicen los investigadores. El grupo planea continuar mejorando el rendimiento del algoritmo con conjuntos de datos y computadoras más grandes, y otras formas de geometría.
«El comportamiento humano es a menudo sorprendente», comentó Vondrick. «Nuestros algoritmos permiten a las máquinas anticipar mejor lo que van a hacer a continuación».