Un sistema de cámara desarrollado por investigadores de la Universidad Carnegie Mellon puede ver las vibraciones del sonido con tanta precisión y detalle que puede reconstruir la música de un solo instrumento en una banda u orquesta.
Incluso los micrófonos dirigidos y de mayor potencia no pueden eliminar los sonidos cercanos, el ruido ambiental y el efecto de la acústica cuando capturan audio. El novedoso sistema desarrollado en el Instituto de Robótica (RI) de la Facultad de Ciencias de la Computación utiliza dos cámaras y un láser para detectar vibraciones superficiales de baja amplitud y alta velocidad. Estas vibraciones se pueden utilizar para reconstruir el sonido, capturando audio aislado sin inferencia ni micrófono.
«Hemos inventado una nueva forma de ver el sonido», dijo Mark Sheinin, investigador asociado postdoctoral en el Laboratorio de Imagen e Iluminación (ILIM) en RI. «Es un nuevo tipo de sistema de cámara, un nuevo dispositivo de imágenes, que puede ver algo invisible a simple vista».
El equipo completó varias demostraciones exitosas de la efectividad de su sistema para detectar vibraciones y la calidad de la reconstrucción del sonido. Capturaron audio aislado de guitarras separadas tocando al mismo tiempo y altavoces individuales tocando música diferente simultáneamente. Analizaron las vibraciones de un diapasón y usaron las vibraciones de una bolsa de Doritos cerca de un parlante para capturar el sonido proveniente de un parlante. Esta demostración rinde homenaje al trabajo anterior realizado por investigadores del MIT que desarrollaron uno de los primeros micrófonos visuales en 2014.
El sistema CMU mejora drásticamente los intentos anteriores de capturar sonido usando visión por computadora. El trabajo del equipo utiliza cámaras ordinarias que cuestan una fracción de las versiones de alta velocidad empleadas en investigaciones anteriores mientras producen una grabación de mayor calidad. El sistema de doble cámara puede capturar vibraciones de objetos en movimiento, como los movimientos de una guitarra mientras un músico la toca, y simultáneamente detectar sonidos individuales desde múltiples puntos.
«Hemos hecho que el micrófono óptico sea mucho más práctico y utilizable», dijo Srinivasa Narasimhan, profesor de RI y director de ILIM. «Hemos mejorado la calidad al mismo tiempo que redujimos los costos».
El sistema funciona analizando las diferencias en los patrones de motas de las imágenes capturadas con un obturador rodante y un obturador global. Un algoritmo calcula la diferencia en los patrones de motas de los dos flujos de video y convierte esas diferencias en vibraciones para reconstruir el sonido.
Un patrón de motas se refiere a la forma en que la luz coherente se comporta en el espacio después de que se refleja en una superficie rugosa. El equipo crea el patrón de motas apuntando un láser a la superficie del objeto que produce las vibraciones, como el cuerpo de una guitarra. Ese patrón de motas cambia a medida que la superficie vibra. Un obturador rodante captura una imagen al escanearla rápidamente, generalmente de arriba a abajo, produciendo la imagen apilando una fila de píxeles encima de otra. Un obturador global captura una imagen en una sola instancia a la vez.
La investigación, «Detección de vibración óptica de doble obturador», recibió el premio al Mejor artículo en la Conferencia IEEE/CVF de 2022 sobre visión artificial y reconocimiento de patrones (CVPR) en Nueva Orleans. Junto a Sheinin y Narasimhan en la investigación estuvieron Dorian Chan, Ph.D. estudiante de ciencias de la computación, y Matthew O’Toole, profesor asistente en el Departamento de Ciencias de la Computación e RI.
CVPR es la principal conferencia sobre visión artificial. La conferencia tuvo un récord de 8.161 trabajos presentados y aceptó alrededor de una cuarta parte de ellos. De ellos, solo 34 fueron preseleccionados para los premios al mejor artículo.
«Este sistema supera los límites de lo que se puede hacer con la visión por computadora», dijo O’Toole. «Este es un nuevo mecanismo para capturar vibraciones diminutas y de alta velocidad, y presenta una nueva área de investigación».
La mayor parte del trabajo en visión por computadora se enfoca en sistemas de entrenamiento para reconocer objetos o rastrearlos a través del espacio, una investigación importante para el avance de tecnologías como los vehículos autónomos. Que este trabajo permita a los sistemas ver mejor las vibraciones imperceptibles de alta frecuencia abre nuevas aplicaciones para la visión artificial.
El sistema de detección de vibraciones ópticas de doble obturador del equipo podría permitir a los ingenieros de sonido monitorear la música de los instrumentos individuales sin la interferencia del resto del conjunto para afinar la mezcla general. Los fabricantes podrían usar el sistema para monitorear las vibraciones de máquinas individuales en el piso de una fábrica para detectar signos tempranos de mantenimiento necesario.
«Si su automóvil comienza a hacer un sonido extraño, sabe que es hora de que lo revisen», dijo Sheinin. «Ahora imagine un piso de fábrica lleno de máquinas. Nuestro sistema le permite monitorear la salud de cada una al detectar sus vibraciones con una sola cámara estacionaria».
Vídeo: https://youtu.be/_pq0d1oxtA0
Más información sobre el sistema: https://imaging.cs.cmu.edu/vibration/
Fuente de la historia:
Materiales proporcionados por Universidad de Carnegie mellon. Original escrito por Aaron Aupperlee. Nota: el contenido se puede editar por estilo y longitud.