Saltar al contenido

IA en tus oídos | Noticias

8 de septiembre de 2022

ClearBuds mejora la voz del orador y reduce el ruido de fondo mediante el uso de hardware de micrófono binaural en los auriculares y software de aprendizaje automático en tiempo real (redes neuronales de aprendizaje profundo) que se ejecuta en una aplicación de teléfono inteligente.

Crédito: Raymond Smith/Universidad de Washington

«ClearBuds» es el nombre en clave del primer «sistema binaural basado en red neuronal de hardware y software de extremo a extremo que utiliza auriculares inalámbricos sincronizados», según el ingeniero de hardware Maruchi Kim de la Universidad de Washington.

Kim y sus colegas demostraron un prototipo de sus dispositivos de mejora del habla/reducción de ruido en la Conferencia internacional ACM sobre sistemas, aplicaciones y servicios móviles (ACM MobiSys2022, celebrada en Portland, OR, del 27 de junio al 1 de julio).

El «primero» afirmado por los investigadores es el emparejamiento de micrófonos binaurales (dobles), uno en el ClearBud de cada oído, con dos redes neuronales en una aplicación en un teléfono inteligente, lo que da como resultado una experiencia de usuario superior de aislamiento de voz y cancelación de ruido durante la conversación telefónica. conversaciones, según los sujetos de prueba.

«Si bien ni los micrófonos duales ni el software de red neuronal son únicos o innovadores, la combinación tiene valor ya que, según se informa, brinda una experiencia que a los usuarios les gustó», dijo Fan Gang Zeng, profesor de otorrinolaringología y director del Laboratorio de Audición y Habla de la Universidad. de California, Irvine. Un investigador en ciencia y tecnología auditiva que no participó en la investigación, Zeng agregó: «Además, no hay una barrera técnica para que otros desarrollen o usen el mismo combo».

Para ayudar a otros investigadores e incluso a los proveedores de equipos de telefonía comercial a utilizar el enfoque ClearBud, los investigadores abrieron sus arquitecturas de hardware, software y redes neuronales. Los detalles se proporcionan en su documento, así como en sus demostraciones de audio (que también contienen enlaces al hardware de código abierto, incluido el diseño de la placa de circuito impreso, el código de software para la transmisión binaural a través de Bluetooth y el código y las arquitecturas de la red neuronal). redes).

Cómo funciona

ClearBuds aprovecha el procesamiento de sonido binaural de transmisiones de audio simultáneas desde micrófonos en cada auricular utilizando software de aprendizaje automático profundo (ML) que se ejecuta en tiempo real. El resultado demostrado por los investigadores en la conferencia mostró que el ruido de fondo se redujo drásticamente (como en esta demostración de video), al igual que las voces cercanas de la competencia, al realizar llamadas telefónicas de rutina en un iPhone habilitado con ClearBud.

Recomendado:  WE-TRANSFORM: Inteligencia artificial y colectiva para el impacto de la automatización

A diferencia de los AirPods de Apple, que emparejan dos micrófonos en cada auricular, los ClearBuds dedican un micrófono en cada auricular para el procesamiento binaural. Los AirPods usan ambos micrófonos en un solo auricular para realizar la dirección/formación de haz (por lo tanto, requieren solo un solo AirPod), mientras que los ClearBuds requieren el uso de micrófonos en ambos auriculares simultáneamente. Los investigadores atribuyen a la mayor distancia espacial entre los micrófonos binaurales la experiencia auditiva mejorada de un habla más libre de ruido en comparación con los AirPods.

«El uso de los micrófonos duales en los dos oídos permite que el sistema localice y aísle el sonido de interés, que es la voz del usuario, ya que está próximo a los sensores, así como centrado a la izquierda y a la derecha. posicionamiento de los auriculares en los oídos», dijo Mounya Elhilali, profesor de ingeniería eléctrica e informática en la Escuela de Ingeniería Johns Hopkins Whiting, que no participó en la investigación.

Este enfoque binaural requiere que ambos flujos de datos de cada micrófono auricular se sincronicen con una diferencia de 64 microsegundos entre sí. El hardware requerido en cada ClearBud funciona con una batería tipo moneda, que puede durar hasta 40 horas. Los algoritmos de redes neuronales, por otro lado, se ejecutan en el teléfono inteligente. Los investigadores afirman que sus micrófonos más separados espacialmente y sus redes neuronales en tiempo real dan como resultado datos de mayor resolución que cuando usan Apple AirPods y aplicaciones integradas de iPhone (a pesar de que el iPhone accede a un procesamiento de alta velocidad superior en unidades de procesamiento de gráficos residentes en la nube de Apple ).

Sin embargo, los investigadores tuvieron que usar algoritmos Bluetooth caseros no estandarizados para procesar las transmisiones de audio binaurales de dos canales. «En este momento, no existe un estándar de Bluetooth configurado para el procesamiento de sonido binaural, pero la versión 5.2 de Bluetooth ayudará al admitir al menos la transmisión de dos canales», explicó Kim. «Nos las arreglamos multiplexando en el tiempo los dos canales en un canal de Bluetooth, lo que dio como resultado nuestros principales logros: mejorar la mejora del habla y la cancelación de ruido».

Recomendado:  ¿Tener AI Generate Text es hacer trampa? | diciembre 2022

Los auriculares tradicionales envían una sola transmisión de audio a una aplicación de teléfono inteligente, aunque los AirPods y sus competidores usan varios micrófonos. Los ClearBuds están diseñados para extraer más información de múltiples micrófonos en virtud de la transmisión de flujos de datos de audio duales (binaurales) a la aplicación del teléfono inteligente. Los algoritmos analíticos de aprendizaje automático profundo utilizan redes neuronales para masajear las transmisiones de audio duales para identificar el ruido y reducirlo a niveles apenas perceptibles en solo 20 milisegundos, según los investigadores. Las redes neuronales duales en tiempo real, una para la separación de la fuente de sonido y otra para la reducción de artefactos, procesaron los paquetes de 22,4 milisegundos de duración de ClearBud en un iPhone 12 Pro en 21,4 milisegundos, lo que resultó en una latencia total de menos de 50 milisegundos (muy por debajo de el máximo de 400 milisegundos recomendado por la norma de telecomunicaciones de la Unión Internacional de Telecomunicaciones ITU-T G.114).

«También utilizamos el chip Neural Engine del iPhone para reducir el tiempo de ejecución y el consumo de energía de nuestro software de red neuronal», dijo el investigador de aprendizaje automático Vivek Jayaram.

Las redes neuronales primero aíslan la voz del hablante (que entra en los micrófonos de ambos auriculares aproximadamente al mismo nivel), luego usan algoritmos que los investigadores comparan con la forma en que el cerebro calcula la dirección de la que proviene un sonido (al comparar la llegada tiempo de señales que llegan a cada oído). La aplicación para iPhone también mostró un gráfico de los datos sin procesar, así como la medida en que se suprimió el ruido.

«Esto es muy similar a cómo funciona la audición humana. Nuestro cerebro compara las señales que llegan a nuestros oídos derecho e izquierdo para juzgar de dónde viene un sonido. Al enfocarse en la voz de la persona, el sistema puede filtrar los ruidos de fondo, así como voces externas que están más alejadas de los micrófonos”, dijo Elhilali. «El software es un sistema híbrido que combina una red neuronal convolucional temporal para un rendimiento de separación de voz potente, con una red de enmascaramiento que corrige los artefactos introducidos por la huella más liviana del sistema original, todo implementado en tiempo real en un dispositivo móvil. El algoritmo es capaz de operar casi en tiempo real [<50ms latency]. Como tal, el algoritmo puede escalar modelos computacionales complejos y pesados ​​en una implementación ágil que se puede lograr en un dispositivo móvil».

Recomendado:  Las redes neuronales aprenden a acelerar las simulaciones | mayo 2022

Los investigadores probaron sus ClearBuds en la naturaleza haciendo que 37 personas calificaran 1041 clips de 10 a 60 segundos de ocho personas leyendo el mismo texto en diferentes entornos ruidosos, incluida una cafetería y una calle concurrida. Los participantes calificaron el hardware ClearBud y su software de red neuronal como que brindan una mejor supresión de ruido y una mejor experiencia auditiva en general en comparación con las soluciones de un solo canal, como los AirPods de Apple, así como los sistemas de solo software, como Denoiser de Facebook, Meet de Google y el asistente de reuniones en línea. Krisp.

«Otros investigadores hacen todas sus pruebas en el laboratorio con bases de datos sintéticas, pero queríamos demostrar que la combinación de nuestros [the researchers’] diferentes antecedentes culminaron en un sistema que podría sobresalir en la naturaleza a pesar de que nació en el laboratorio”, dijo Ishan Chatterjee, arquitecto sénior de hardware de Microsoft HoloLens, quien también es investigador de posgrado en el Laboratorio de Computación Ubicua de la Universidad de Washington.

Una limitación del diseño es que ambos auriculares deben estar cargados y en funcionamiento para que funcione el sistema ClearBud. Los AirPods de Apple, por ejemplo, utilizan formación de haz y dirección que funciona con auriculares individuales.

Para mejorar los ClearBuds en el futuro, el equipo está intentando calzar los algoritmos de la red neuronal en los propios auriculares, de modo que funcionen en cualquier dispositivo de telefonía compatible con auriculares inalámbricos. El equipo también está intentando usar dos micrófonos en cada ClearBud, de modo que la formación/dirección de haz similar a AirPod se pueda usar antes de los algoritmos de separación de voz binaural y supresión de ruido.

Otras áreas de aplicación que persiguen los investigadores incluyen relojes inteligentes, gafas de realidad aumentada, parlantes inteligentes y reconocimiento de actividad acústica para la localización y el control de robots de enjambre.

R. Colin Johnson es un Kyoto Prize Fellow que ha trabajado como periodista tecnológico durante dos décadas.


entradas no encontradas