Saltar al contenido

Un nuevo modelo de aprendizaje automático podría permitir que los robots comprendan las interacciones en el mundo de la misma manera que lo hacen los humanos. — Ciencia diaria

3 de febrero de 2022

Cuando los humanos miran una escena, ven objetos y las relaciones entre ellos. Encima de su escritorio, puede haber una computadora portátil que se encuentra a la izquierda de un teléfono, que está frente a un monitor de computadora.

Muchos modelos de aprendizaje profundo luchan por ver el mundo de esta manera porque no entienden las relaciones enredadas entre los objetos individuales. Sin el conocimiento de estas relaciones, un robot diseñado para ayudar a alguien en la cocina tendría dificultades para seguir un comando como «toma la espátula que está a la izquierda de la estufa y colócala encima de la tabla de cortar».

En un esfuerzo por resolver este problema, los investigadores del MIT han desarrollado un modelo que comprende las relaciones subyacentes entre los objetos en una escena. Su modelo representa las relaciones individuales una a la vez, luego combina estas representaciones para describir la escena general. Esto permite que el modelo genere imágenes más precisas a partir de descripciones de texto, incluso cuando la escena incluye varios objetos que están dispuestos en diferentes relaciones entre sí.

Este trabajo podría aplicarse en situaciones en las que los robots industriales deben realizar tareas de manipulación complejas y de varios pasos, como apilar artículos en un almacén o ensamblar electrodomésticos. También mueve el campo un paso más cerca de permitir que las máquinas puedan aprender de su entorno e interactuar con él de forma más parecida a como lo hacen los humanos.

«Cuando miro una mesa, no puedo decir que hay un objeto en la ubicación XYZ. Nuestras mentes no funcionan así. En nuestras mentes, cuando entendemos una escena, realmente la entendemos en función de las relaciones entre los objetos Creemos que al construir un sistema que pueda comprender las relaciones entre los objetos, podríamos usar ese sistema para manipular y cambiar nuestros entornos de manera más efectiva «, dice Yilun Du, estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL). ) y coautor principal del artículo.

Recomendado:  La técnica mejora la capacidad de la IA para comprender el espacio 3D utilizando imágenes 2D

Du escribió el artículo con los coautores principales Shuang Li, estudiante de doctorado de CSAIL, y Nan Liu, estudiante de posgrado en la Universidad de Illinois en Urbana-Champaign; así como Joshua B. Tenenbaum, Profesor de Desarrollo de Carrera Paul E. Newton de Ciencias Cognitivas y Computación en el Departamento de Cerebro y Ciencias Cognitivas y miembro de CSAIL; y el autor principal Antonio Torralba, profesor de Ingeniería Eléctrica y Ciencias de la Computación de Delta Electronics y miembro de CSAIL. La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural en diciembre.

Una relación a la vez

El marco que desarrollaron los investigadores puede generar una imagen de una escena basada en una descripción de texto de los objetos y sus relaciones, como «Una mesa de madera a la izquierda de un taburete azul. Un sofá rojo a la derecha de un taburete azul».

Su sistema dividiría estas oraciones en dos partes más pequeñas que describen cada relación individual («una mesa de madera a la izquierda de un taburete azul» y «un sofá rojo a la derecha de un taburete azul»), y luego modelaría cada parte por separado. . Esas piezas luego se combinan a través de un proceso de optimización que genera una imagen de la escena.

Los investigadores utilizaron una técnica de aprendizaje automático llamada modelos basados ​​en energía para representar las relaciones de los objetos individuales en una descripción de la escena. Esta técnica les permite usar un modelo basado en energía para codificar cada descripción relacional y luego componerlas juntas de una manera que infiere todos los objetos y relaciones.

Al dividir las oraciones en partes más cortas para cada relación, el sistema puede recombinarlas en una variedad de formas, por lo que puede adaptarse mejor a descripciones de escenas que no ha visto antes, explica Li.

«Otros sistemas tomarían todas las relaciones de manera holística y generarían la imagen de una vez a partir de la descripción. Sin embargo, estos enfoques fallan cuando tenemos descripciones fuera de distribución, como descripciones con más relaciones, ya que estos modelos realmente no pueden adaptarse una toma para generar imágenes que contengan más relaciones. Sin embargo, como estamos componiendo juntos estos modelos separados y más pequeños, podemos modelar una mayor cantidad de relaciones y adaptarnos a combinaciones novedosas», dice Du.

Recomendado:  Entrevista a Beth Singler: Los peligros de tratar a la IA como a un dios

El sistema también funciona a la inversa: dada una imagen, puede encontrar descripciones de texto que coincidan con las relaciones entre los objetos en la escena. Además, su modelo se puede usar para editar una imagen reorganizando los objetos en la escena para que coincidan con una nueva descripción.

Entender escenas complejas

Los investigadores compararon su modelo con otros métodos de aprendizaje profundo a los que se les dieron descripciones de texto y se les asignó la tarea de generar imágenes que mostraran los objetos correspondientes y sus relaciones. En cada caso, su modelo superó las líneas de base.

También pidieron a los humanos que evaluaran si las imágenes generadas coincidían con la descripción de la escena original. En los ejemplos más complejos, donde las descripciones contenían tres relaciones, el 91 por ciento de los participantes concluyó que el nuevo modelo funcionaba mejor.

«Algo interesante que encontramos es que para nuestro modelo, podemos aumentar nuestra oración de tener una descripción de relación a tener dos, tres o incluso cuatro descripciones, y nuestro enfoque sigue siendo capaz de generar imágenes que son descritas correctamente por esas descripciones, mientras que otros métodos fallan», dice Du.

Los investigadores también mostraron al modelo imágenes de escenas que no había visto antes, así como varias descripciones de texto diferentes de cada imagen, y pudo identificar con éxito la descripción que mejor coincidía con las relaciones de objetos en la imagen.

Y cuando los investigadores le dieron al sistema dos descripciones de escenas relacionales que describían la misma imagen pero de diferentes maneras, el modelo pudo entender que las descripciones eran equivalentes.

Recomendado:  Australia necesita enfrentarse a los peligros de la tecnología de reconocimiento facial.

Los investigadores quedaron impresionados por la solidez de su modelo, especialmente cuando trabajaban con descripciones que no habían encontrado antes.

«Esto es muy prometedor porque está más cerca de cómo funcionan los humanos. Es posible que los humanos solo vean varios ejemplos, pero podemos extraer información útil solo de esos pocos ejemplos y combinarlos para crear combinaciones infinitas. Y nuestro modelo tiene una propiedad tal que permite aprender de menos datos pero generalizar a escenas o generaciones de imágenes más complejas», dice Li.

Si bien estos primeros resultados son alentadores, a los investigadores les gustaría ver cómo funciona su modelo en imágenes del mundo real que son más complejas, con fondos ruidosos y objetos que se bloquean entre sí.

También están interesados ​​en incorporar eventualmente su modelo en los sistemas robóticos, lo que permite que un robot infiera las relaciones de los objetos a partir de videos y luego aplique este conocimiento para manipular objetos en el mundo.

«El desarrollo de representaciones visuales que puedan lidiar con la naturaleza compositiva del mundo que nos rodea es uno de los problemas abiertos clave en la visión por computadora. Este documento hace un progreso significativo en este problema al proponer un modelo basado en energía que modela explícitamente múltiples relaciones entre los objetos. representado en la imagen. Los resultados son realmente impresionantes «, dice Josef Sivic, un distinguido investigador del Instituto Checo de Informática, Robótica y Cibernética de la Universidad Técnica Checa, que no participó en esta investigación.

Esta investigación cuenta con el apoyo, en parte, de Raytheon BBN Technologies Corp., el Laboratorio de Investigación de Mitsubishi Electric, la Fundación Nacional de Ciencias, la Oficina de Investigación Naval y el Centro de Investigación IBM Thomas J. Watson.

Más información y resumen, «Aprender a componer relaciones visuales: https://composevisualrelations.github.io/