El reconocimiento óptico de gestos de la mano mejora la precisión y la complejidad con un nuevo algoritmo

En la exitosa película de ciencia ficción de 2002 Informe de minorías, El personaje de Tom Cruise, John Anderton, usa sus manos, enfundadas en guantes especiales, para interactuar con su pantalla de computadora transparente del tamaño de una pared. La computadora reconoce sus gestos para agrandar, acercar y deslizar. Aunque esta visión futurista de la interacción computadora-humano tiene ahora 20 años, los humanos de hoy todavía interactúan con las computadoras usando un mouse, teclado, control remoto o una pequeña pantalla táctil. Sin embargo, los investigadores han dedicado un gran esfuerzo a desbloquear formas de comunicación más naturales sin requerir el contacto entre el usuario y el dispositivo. Los comandos de voz son un ejemplo destacado que se ha abierto camino en los teléfonos inteligentes modernos y los asistentes virtuales, permitiéndonos interactuar y controlar los dispositivos a través del habla.

Los gestos con las manos constituyen otro modo importante de comunicación humana que podría adoptarse para las interacciones entre humanos y computadoras. Los avances recientes en los sistemas de cámaras, el análisis de imágenes y el aprendizaje automático han hecho que el reconocimiento óptico de gestos sea una opción más atractiva en la mayoría de los contextos que los enfoques que se basan en sensores portátiles o guantes de datos, como los utiliza Anderton en Informe de minorías. Sin embargo, los métodos actuales se ven obstaculizados por una variedad de limitaciones, que incluyen una alta complejidad computacional, baja velocidad, poca precisión o un bajo número de gestos reconocibles. Para abordar estos problemas, un equipo dirigido por Zhiyi Yu de la Universidad Sun Yat-sen, China, desarrolló recientemente un nuevo algoritmo de reconocimiento de gestos con las manos que logra un buen equilibrio entre complejidad, precisión y aplicabilidad. Como se detalla en su artículo, que fue publicado en el Revista de imágenes electrónicas, el equipo adoptó estrategias innovadoras para superar desafíos clave y realizar un algoritmo que se puede aplicar fácilmente en dispositivos a nivel de consumidor.

Una de las principales características del algoritmo es la adaptabilidad a diferentes tipos de manos. El algoritmo primero intenta clasificar el tipo de mano del usuario como delgada, normal o ancha basándose en tres medidas que tienen en cuenta las relaciones entre el ancho de la palma, la longitud de la palma y la longitud del dedo. Si esta clasificación tiene éxito, los pasos posteriores en el proceso de reconocimiento de gestos con las manos solo comparan el gesto de entrada con muestras almacenadas del mismo tipo de mano. «Los algoritmos simples tradicionales tienden a sufrir bajas tasas de reconocimiento porque no pueden hacer frente a diferentes tipos de manos. Al clasificar primero el gesto de entrada por tipo de mano y luego usar bibliotecas de muestra que coinciden con este tipo, podemos mejorar la tasa de reconocimiento general con un recurso casi insignificante consumo «, explica Yu.

Otro aspecto clave del método del equipo es el uso de una «función de atajo» para realizar un paso de reconocimiento previo. Si bien el algoritmo de reconocimiento es capaz de identificar un gesto de entrada de entre nueve gestos posibles, comparar todas las características del gesto de entrada con las de las muestras almacenadas para todos los gestos posibles llevaría mucho tiempo. Para resolver este problema, el paso de reconocimiento previo calcula una proporción del área de la mano para seleccionar los tres gestos más probables de los nueve posibles. Esta simple característica es suficiente para reducir el número de gestos candidatos a tres, de los cuales el gesto final se decide utilizando una extracción de características mucho más compleja y de alta precisión basada en «momentos invariantes de Hu». Yu dice: «El paso de reconocimiento previo de gestos no solo reduce la cantidad de cálculos y recursos de hardware necesarios, sino que también mejora la velocidad de reconocimiento sin comprometer la precisión».

El equipo probó su algoritmo tanto en un procesador de PC comercial como en una plataforma FPGA utilizando una cámara USB. Hicieron que 40 voluntarios hicieran los nueve gestos con las manos varias veces para construir la biblioteca de muestras, y otros 40 voluntarios para determinar la precisión del sistema. En general, los resultados mostraron que el enfoque propuesto podría reconocer los gestos con las manos en tiempo real con una precisión superior al 93%, incluso si las imágenes de los gestos de entrada se rotaron, tradujeron o escalaron. Según los investigadores, el trabajo futuro se centrará en mejorar el rendimiento del algoritmo en condiciones de iluminación deficientes y aumentar el número de posibles gestos.

El reconocimiento de gestos tiene muchos campos de aplicación prometedores y podría allanar el camino hacia nuevas formas de controlar dispositivos electrónicos. ¡Una revolución en la interacción humano-computadora podría estar cerca!

Fuente de la historia:

Materiales proporcionados por SPIE – Sociedad Internacional de Óptica y Fotónica. Nota: El contenido puede editarse por estilo y longitud.