La técnica mejora la capacidad de la IA para comprender el espacio 3D utilizando imágenes 2D

Los investigadores han desarrollado una nueva técnica, llamada MonoCon, que mejora la capacidad de los programas de inteligencia artificial (IA) para identificar objetos tridimensionales (3D) y cómo esos objetos se relacionan entre sí en el espacio, utilizando imágenes bidimensionales (2D). . Por ejemplo, el trabajo ayudaría a la IA utilizada en vehículos autónomos a navegar en relación con otros vehículos utilizando las imágenes 2D que recibe de una cámara a bordo.

«Vivimos en un mundo 3D, pero cuando tomas una foto, registra ese mundo en una imagen 2D», dice Tianfu Wu, autor correspondiente de un artículo sobre el trabajo y profesor asistente de ingeniería eléctrica e informática en el estado de Carolina del Norte. Universidad.

«Los programas de IA reciben información visual de las cámaras. Entonces, si queremos que la IA interactúe con el mundo, debemos asegurarnos de que pueda interpretar qué imágenes 2D pueden decirle sobre el espacio 3D. En esta investigación, nos enfocamos en una parte de ese desafío: cómo podemos hacer que la IA reconozca con precisión objetos 3D, como personas o automóviles, en imágenes 2D y colocar esos objetos en el espacio».

Si bien el trabajo puede ser importante para los vehículos autónomos, también tiene aplicaciones para la fabricación y la robótica.

En el contexto de los vehículos autónomos, la mayoría de los sistemas existentes se basan en lidar, que utiliza láseres para medir la distancia, para navegar en el espacio 3D. Sin embargo, la tecnología lidar es costosa. Y debido a que lidar es costoso, los sistemas autónomos no incluyen mucha redundancia. Por ejemplo, sería demasiado costoso colocar docenas de sensores lidar en un automóvil sin conductor producido en masa.

«Pero si un vehículo autónomo pudiera usar entradas visuales para navegar por el espacio, podría construir redundancia», dice Wu. «Debido a que las cámaras son significativamente menos costosas que lidar, sería económicamente factible incluir cámaras adicionales, creando redundancia en el sistema y haciéndolo más seguro y más robusto.

«Esa es una aplicación práctica. Sin embargo, también estamos entusiasmados con el avance fundamental de este trabajo: que es posible obtener datos 3D a partir de objetos 2D».

Específicamente, MonoCon es capaz de identificar objetos 3D en imágenes 2D y colocarlos en un «cuadro delimitador», que le dice a la IA los bordes más externos del objeto relevante.

MonoCon se basa en una cantidad sustancial de trabajo existente destinado a ayudar a los programas de IA a extraer datos 3D de imágenes 2D. Muchos de estos esfuerzos entrenan a la IA «mostrando» imágenes en 2D y colocando cuadros delimitadores en 3D alrededor de los objetos en la imagen. Estas cajas son cuboides, que tienen ocho puntas; piense en las esquinas de una caja de zapatos. Durante el entrenamiento, la IA recibe coordenadas 3D para cada una de las ocho esquinas del cuadro, de modo que la IA «comprenda» la altura, el ancho y el largo del «cuadro delimitador», así como la distancia entre cada una de esas esquinas y la cámara. . La técnica de entrenamiento usa esto para enseñar a la IA cómo estimar las dimensiones de cada cuadro delimitador y le indica a la IA que prediga la distancia entre la cámara y el automóvil. Después de cada predicción, los entrenadores «corrigen» a la IA, dándole las respuestas correctas. Con el tiempo, esto permite que la IA sea cada vez mejor para identificar objetos, colocarlos en un cuadro delimitador y estimar las dimensiones de los objetos.

«Lo que diferencia nuestro trabajo es cómo entrenamos la IA, que se basa en técnicas de entrenamiento anteriores», dice Wu. «Al igual que los esfuerzos anteriores, colocamos objetos en cuadros delimitadores 3D mientras entrenamos a la IA. Sin embargo, además de pedirle a la IA que prediga la distancia entre la cámara y el objeto y las dimensiones de los cuadros delimitadores, también le pedimos a la IA que prediga las ubicaciones de cada uno de los ocho puntos del cuadro y su distancia desde el centro del cuadro delimitador en dos dimensiones. Lo llamamos «contexto auxiliar», y descubrimos que ayuda a la IA a identificar y predecir con mayor precisión objetos 3D basados en imágenes 2D. .

«El método propuesto está motivado por un teorema bien conocido en la teoría de la medida, el teorema de Cramér-Wold. También es potencialmente aplicable a otras tareas de predicción de salida estructurada en visión artificial».

Los investigadores probaron MonoCon utilizando un conjunto de datos de referencia ampliamente utilizado llamado KITTI.

«En el momento en que presentamos este documento, MonoCon funcionó mejor que cualquiera de las docenas de otros programas de IA destinados a extraer datos 3D de automóviles a partir de imágenes 2D», dice Wu. MonoCon se desempeñó bien en la identificación de peatones y bicicletas, pero no fue el mejor programa de IA en esas tareas de identificación.

«En el futuro, estamos ampliando esto y trabajando con conjuntos de datos más grandes para evaluar y ajustar MonoCon para su uso en la conducción autónoma», dice Wu. «También queremos explorar aplicaciones en la fabricación, para ver si podemos mejorar el rendimiento de tareas como el uso de brazos robóticos».

El trabajo se realizó con el apoyo de la Fundación Nacional de Ciencias, con las subvenciones 1909644, 1822477, 2024688 y 2013451; la Oficina de Investigación del Ejército, con la subvención W911NF1810295; y el Departamento de Salud y Servicios Humanos de EE. UU., Administración para la Vida Comunitaria, bajo la subvención 90IFDV0017-01-00.