La tecnología de visión por computadora se utiliza cada vez más en áreas como los sistemas de vigilancia automática, los vehículos autónomos, el reconocimiento facial, la asistencia sanitaria y las herramientas de distanciamiento social. Los usuarios requieren información visual precisa y confiable para aprovechar completamente los beneficios de las aplicaciones de análisis de video, pero la calidad de los datos de video a menudo se ve afectada por factores ambientales como la lluvia, las condiciones nocturnas o las multitudes (donde hay múltiples imágenes de personas superpuestas con cada una de ellas). otro en una escena). Utilizando la visión por computadora y el aprendizaje profundo, un equipo de investigadores dirigido por el profesor asociado de ciencia (informática) de Yale-NUS College Robby Tan, quien también es de la Facultad de Ingeniería de la Universidad Nacional de Singapur (NUS), ha desarrollado enfoques novedosos que resuelven el problema de la visión de bajo nivel en los videos causado por la lluvia y las condiciones nocturnas, así como mejorar la precisión de la estimación de la pose humana en 3D en los videos.
La investigación se presentó en la Conferencia 2021 sobre Visión por Computador y Reconocimiento de Patrones (CVPR).
Combatir problemas de visibilidad durante la lluvia y las condiciones nocturnas
Las imágenes nocturnas se ven afectadas por la poca luz y los efectos de luz creados por el hombre, como el deslumbramiento, el resplandor y los reflectores, mientras que las imágenes de lluvia se ven afectadas por las rayas o la acumulación de lluvia (o el efecto de velo de lluvia).
«Muchos sistemas de visión por computadora, como la vigilancia automática y los automóviles autónomos, dependen de la visibilidad clara de los videos de entrada para funcionar bien. Por ejemplo, los automóviles autónomos no pueden funcionar de manera sólida en condiciones de lluvia intensa y los sistemas de vigilancia automática CCTV a menudo fallan de noche, si las escenas son oscuras o hay reflejos o reflejos significativos ”, explicó Assoc Prof Tan.
En dos estudios separados, Assoc Prof Tan y su equipo introdujeron algoritmos de aprendizaje profundo para mejorar la calidad de los videos nocturnos y los videos de lluvia, respectivamente. En el primer estudio, aumentaron el brillo y al mismo tiempo suprimieron el ruido y los efectos de luz (deslumbramiento, resplandor y focos) para producir imágenes nocturnas claras. Esta técnica es nueva y aborda el desafío de la claridad en imágenes y videos nocturnos cuando no se puede ignorar la presencia de deslumbramiento. En comparación, los métodos de vanguardia existentes no logran manejar el deslumbramiento.
En países tropicales como Singapur, donde las fuertes lluvias son comunes, el efecto de velo de lluvia puede degradar significativamente la visibilidad de los videos. En el segundo estudio, los investigadores introdujeron un método que emplea una alineación de cuadros, lo que les permite obtener una mejor información visual sin verse afectados por las rayas de lluvia que aparecen aleatoriamente en diferentes cuadros y afectan la calidad de las imágenes. Posteriormente, utilizaron una cámara en movimiento para emplear la estimación de profundidad con el fin de eliminar el efecto de velo de lluvia causado por las gotas de lluvia acumuladas. A diferencia de los métodos existentes, que se centran en eliminar las rayas de lluvia, los nuevos métodos pueden eliminar tanto las rayas de lluvia como el efecto de velo de lluvia al mismo tiempo.
Estimación de la postura humana en 3D: abordar la inexactitud causada por la superposición de múltiples humanos en los videos
En la conferencia CVPR, Assoc Prof Tan también presentó la investigación de su equipo sobre la estimación de la pose humana en 3D, que se puede utilizar en áreas como la videovigilancia, los videojuegos y la transmisión deportiva.
En los últimos años, la estimación de pose de varias personas en 3D a partir de un video monocular (video tomado de una sola cámara) se está convirtiendo cada vez más en un área de enfoque para investigadores y desarrolladores. En lugar de usar varias cámaras para tomar videos desde diferentes ubicaciones, los videos monoculares ofrecen más flexibilidad, ya que se pueden tomar con una sola cámara común, incluso la cámara de un teléfono móvil.
Sin embargo, la precisión en la detección humana se ve afectada por una alta actividad, es decir, múltiples individuos dentro de la misma escena, especialmente cuando los individuos interactúan estrechamente o cuando parecen superponerse entre sí en el video monocular.
En este tercer estudio, los investigadores estiman poses humanas en 3D a partir de un video combinando dos métodos existentes, a saber, un enfoque de arriba hacia abajo o un enfoque de abajo hacia arriba. Al combinar los dos enfoques, el nuevo método puede producir una estimación de pose más confiable en entornos de varias personas y manejar la distancia entre individuos (o variaciones de escala) de manera más sólida.
Los investigadores involucrados en los tres estudios incluyen miembros del equipo de Assoc Prof Tan en el Departamento de Ingeniería Eléctrica e Informática de NUS, donde tiene un nombramiento conjunto, y sus colaboradores de City University of Hong Kong, ETH Zurich y Tencent Game AI Research Center. Su laboratorio se enfoca en la investigación en visión por computadora y aprendizaje profundo, particularmente en los dominios de visión de bajo nivel, análisis de pose y movimiento humanos y aplicaciones de aprendizaje profundo en la atención médica.
«Como siguiente paso en nuestra investigación de estimación de pose humana en 3D, que cuenta con el apoyo de la National Research Foundation, analizaremos cómo proteger la información de privacidad de los videos. Para los métodos de mejora de la visibilidad, nos esforzamos por contribuir a los avances en el campo de la visión por computadora, ya que son fundamentales para muchas aplicaciones que pueden afectar nuestra vida diaria, como permitir que los autos autónomos funcionen mejor en condiciones climáticas adversas ”, dijo Assoc Prof Tan.