Las redes de aprendizaje profundo prefieren la voz humana, al igual que nosotros

La revolución digital se construye sobre una base de unos y ceros invisibles llamados bits. A medida que pasan las décadas, y más y más información y conocimiento del mundo se transforman en flujos de 1 y 0, la noción de que las computadoras prefieren «hablar» en números binarios rara vez se cuestiona. Según una nueva investigación de Columbia Engineering, esto podría estar a punto de cambiar.

Un nuevo estudio del profesor de ingeniería mecánica Hod Lipson y su estudiante de doctorado Boyuan Chen demuestra que los sistemas de inteligencia artificial podrían alcanzar niveles más altos de rendimiento si se programan con archivos de sonido del lenguaje humano en lugar de con etiquetas de datos numéricos. Los investigadores descubrieron que en una comparación lado a lado, una red neuronal cuyas «etiquetas de entrenamiento» consistían en archivos de sonido alcanzaba niveles más altos de rendimiento en la identificación de objetos en imágenes, en comparación con otra red que había sido programada de una manera más tradicional. utilizando entradas binarias simples.

«Para comprender por qué este hallazgo es significativo», dijo Lipson, profesor de innovación de James y Sally Scapa y miembro del Instituto de Ciencia de Datos de Columbia, «es útil comprender cómo se programan generalmente las redes neuronales y por qué usar el sonido de la voz humana es un experimento radical «.

Cuando se utiliza para transmitir información, el lenguaje de los números binarios es compacto y preciso. Por el contrario, el lenguaje humano hablado es más tonal y analógico y, cuando se captura en un archivo digital, no es binario. Debido a que los números son una forma tan eficiente de digitalizar datos, los programadores rara vez se desvían de un proceso basado en números cuando desarrollan una red neuronal.

Lipson, un roboticista de gran prestigio, y Chen, un ex pianista de concierto, tenían el presentimiento de que las redes neuronales podrían no estar alcanzando su máximo potencial. Especularon que las redes neuronales podrían aprender más rápido y mejor si los sistemas estuvieran «entrenados» para reconocer animales, por ejemplo, utilizando el poder de uno de los sonidos más evolucionados del mundo: la voz humana que pronuncia palabras específicas.

Uno de los ejercicios más comunes que utilizan los investigadores de IA para probar los méritos de una nueva técnica de aprendizaje automático es entrenar una red neuronal para reconocer objetos y animales específicos en una colección de fotografías diferentes. Para verificar su hipótesis, Chen, Lipson y dos estudiantes, Yu Li y Sunand Raghupathi, establecieron un experimento controlado. Crearon dos nuevas redes neuronales con el objetivo de entrenarlos a ambos para reconocer 10 tipos diferentes de objetos en una colección de 50.000 fotografías conocidas como «imágenes de entrenamiento».

Un sistema de IA se entrenó de la manera tradicional, cargando una tabla de datos gigante que contiene miles de filas, cada fila corresponde a una sola foto de entrenamiento. La primera columna era un archivo de imagen que contenía una foto de un objeto o animal en particular; las siguientes 10 columnas correspondían a 10 posibles tipos de objetos: gatos, perros, aviones, etc. Un «1» en cualquier columna indica la respuesta correcta y nueve 0 indican las respuestas incorrectas.

El equipo configuró la red neuronal experimental de una manera radicalmente novedosa. Lo alimentaron con una tabla de datos cuyas filas contenían una fotografía de un animal u objeto, y la segunda columna contenía un archivo de audio de una voz humana grabada que realmente expresaba la palabra para el animal u objeto representado en voz alta. No había 1 ni 0.

Una vez que ambas redes neuronales estuvieron listas, Chen, Li y Raghupathi entrenaron ambos sistemas de inteligencia artificial durante un total de 15 horas y luego compararon su desempeño respectivo. Cuando se le presentó una imagen, la red original escupió la respuesta como una serie de diez 1 y 0, tal como fue entrenada para hacer. Sin embargo, la red neuronal experimental produjo una voz claramente discernible que intentaba «decir» cuál era el objeto de la imagen. Inicialmente, el sonido era solo una confusión. A veces era una confusión de múltiples categorías, como «engranaje» para gato y perro. Finalmente, la voz fue en su mayoría correcta, aunque con un tono extraño extraño (ver ejemplo en el sitio web).

Al principio, los investigadores se sorprendieron un poco al descubrir que su corazonada había sido correcta: no había una ventaja aparente para los 1 y los 0. Tanto la red neuronal de control como la experimental funcionaron igualmente bien, identificando correctamente al animal u objeto representado en una fotografía aproximadamente el 92% de las veces. Para verificar sus resultados, los investigadores volvieron a realizar el experimento y obtuvieron el mismo resultado.

Sin embargo, lo que descubrieron a continuación fue aún más sorprendente. Para explorar más a fondo los límites del uso del sonido como herramienta de entrenamiento, los investigadores establecieron otra comparación lado a lado, esta vez usando muchas menos fotografías durante el proceso de entrenamiento. Si bien la primera ronda de entrenamiento implicó alimentar las tablas de datos de ambas redes neuronales que contenían 50.000 imágenes de entrenamiento, ambos sistemas en el segundo experimento recibieron muchas menos fotografías de entrenamiento, solo 2.500 cada uno.

Es bien sabido en la investigación de IA que la mayoría de las redes neuronales funcionan mal cuando los datos de entrenamiento son escasos, y en este experimento, la red tradicional entrenada numéricamente no fue una excepción. Su capacidad para identificar animales individuales que aparecían en las fotografías se desplomó hasta un 35% de precisión. Por el contrario, aunque la red neuronal experimental también se entrenó con la misma cantidad de fotografías, su rendimiento lo hizo dos veces mejor, con una precisión de solo el 70%.

Intrigados, Lipson y sus estudiantes decidieron probar su método de entrenamiento basado en la voz en otro desafío clásico de reconocimiento de imágenes de IA, el de la ambigüedad de la imagen. Esta vez establecieron otra comparación lado a lado, pero elevaron el juego al usar fotografías más difíciles que eran más difíciles de «entender» para un sistema de IA. Por ejemplo, una foto de entrenamiento mostraba una imagen ligeramente corrupta de un perro o un gato con colores extraños. Cuando compararon los resultados, incluso con fotografías más desafiantes, la red neuronal entrenada por voz seguía siendo correcta aproximadamente el 50% del tiempo, superando a la red entrenada numéricamente que fracasaba, logrando solo un 20% de precisión.

Irónicamente, el hecho de que sus resultados fueran directamente contrarios al status quo se convirtió en un desafío cuando los investigadores intentaron por primera vez compartir sus hallazgos con sus colegas en ciencias de la computación. «Nuestros hallazgos van directamente en contra de la cantidad de expertos que han sido capacitados para pensar en computadoras y números; es una suposición común que las entradas binarias son una forma más eficiente de transmitir información a una máquina que las transmisiones de audio con una ‘riqueza’ de información similar», explicó Boyuan Chen, investigador principal del estudio. «De hecho, cuando presentamos esta investigación a una gran conferencia de IA, un revisor anónimo rechazó nuestro artículo simplemente porque sintió que nuestros resultados eran ‘demasiado sorprendentes y poco intuitivos'».

Sin embargo, cuando se considera en el contexto más amplio de la teoría de la información, la hipótesis de Lipson y Chen en realidad apoya una hipótesis histórica mucho más antigua propuesta por primera vez por el legendario Claude Shannon, el padre de la teoría de la información. Según la teoría de Shannon, las «señales» de comunicación más efectivas se caracterizan por un número óptimo de bits, emparejados con una cantidad óptima de información útil, o «sorpresa».

«Si piensa en el hecho de que el lenguaje humano ha pasado por un proceso de optimización durante decenas de miles de años, entonces tiene mucho sentido que nuestras palabras habladas hayan encontrado un buen equilibrio entre el ruido y la señal»; Lipson observó. «Por lo tanto, cuando se ve a través de la lente de la entropía de Shannon, tiene sentido que una red neuronal entrenada con lenguaje humano supere a una red neuronal entrenada por simples 1 y 0».

El estudio, que se presentará en la conferencia International Conference on Learning Representations el 3 de mayo de 2021, es parte de un esfuerzo más amplio en el Columbia Creative Machines Lab de Lipson para crear robots que puedan comprender el mundo que los rodea al interactuar con otras máquinas y humanos. en lugar de ser programado directamente con datos cuidadosamente preprocesados.

«Deberíamos pensar en utilizar nuevas y mejores formas de entrenar sistemas de IA en lugar de recopilar conjuntos de datos más grandes», dijo Chen. «Si reconsideramos cómo presentamos los datos de entrenamiento a la máquina, podríamos hacer un mejor trabajo como profesores».

Uno de los resultados más refrescantes de la investigación en ciencias de la computación sobre inteligencia artificial ha sido un efecto secundario inesperado: al sondear cómo aprenden las máquinas, a veces los investigadores se topan con nuevos conocimientos sobre los grandes desafíos de otros campos bien establecidos.

«Uno de los mayores misterios de la evolución humana es cómo nuestros antepasados adquirieron el lenguaje y cómo los niños aprenden a hablar sin esfuerzo», dijo Lipson. «Si los niños pequeños aprenden mejor con instrucciones repetitivas orales, entonces quizás los sistemas de inteligencia artificial también puedan».