En un episodio crítico de el mandaloriano, una serie de televisión ambientada en el universo de Star Wars, un misterioso Jedi se abre camino a través de una horda de robots malvados. Mientras los héroes del programa esperan ansiosamente conocer la identidad de su salvador encapuchado, él se baja la capucha y, alerta de spoiler, conocen a un joven Luke Skywalker.
En realidad, lo que vemos es una versión animada y envejecida del Jedi. Entonces Luke habla, con una voz que se parece mucho a la interpretación del personaje de la década de 1980, gracias al uso de un modelo de aprendizaje automático avanzado desarrollado por la empresa emergente de tecnología de voz Respeecher. «Nadie notó que fue generado por una máquina», dice Dmytro Bielievtsov, director de tecnología de Respeecher. «Esa es la parte buena».
Respeecher es una de varias empresas que desarrollan sistemas que utilizan redes neuronales para modelar la voz de un hablante en particular, luego aplican ese modelo y crean un discurso que suena como ese individuo, incluso si la persona nunca ha pronunciado las palabras que se están pronunciando. El potencial para usos de tipo deepfake es inquietante, por lo que Respeecher tiene cuidado de obtener la aprobación de las personas antes de aplicar la tecnología a sus voces. La compañía, y otras similares, también están trabajando en marcas de agua digitales y otras técnicas para indicar que una muestra está sintetizada.
Hay muchas aplicaciones positivas para tales sistemas de clonación de voz. «Si sabe que podría perder la voz debido a una cirugía o a una afección médica, podría grabarlo con anticipación, crear un modelo de su voz y hacer que el habla sintetizada suene como usted», observa Simon King, profesor de procesamiento de voz en la Universidad de Edimburgo del Reino Unido.
Algunas empresas están impulsando la tecnología aún más, desarrollando sistemas que doblan automáticamente el diálogo a otros idiomas mientras conservan las características de voz del hablante original. Si bien aún quedan muchos desafíos, los avances en el reconocimiento, la traducción y la síntesis de voz han acelerado el progreso en el área, lo que sugiere que podríamos estar escuchando voces sintetizadas más sutilmente en los próximos años.
Volver arriba
De la ficción a la realidad
Los investigadores han estado trabajando para desarrollar la traducción automática de voz a voz durante al menos tres décadas, según el científico informático Alan Black del Instituto de Tecnologías del Lenguaje de la Universidad Carnegie Mellon. A principios de la década de 2000, la Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU. (DARPA) financió un proyecto con el objetivo de desarrollar un traductor universal. Black dice que los equipos involucrados lograron un progreso significativo al traducir del inglés al árabe y a los dialectos iraquíes, pero hubo limitaciones y nunca lograron la elegante funcionalidad del traductor universal popularizado en Star Trek.
«Estaba muy lejos de lo que ves en Star Trekpero en realidad funcionó con la traducción a nivel de oración, en el sentido de que los usuarios específicos y no expertos podían obtener algo de ella», dice Black.
El proceso de generación automática de voz en un idioma diferente al original requiere varios pasos. Primero, el reconocimiento de voz transforma el audio original en texto (piense en Siri). La tecnología de traducción automática luego convierte ese texto al idioma de destino (Google Translate ha avanzado significativamente en este dominio, pero sigue siendo tremendamente complejo, ya que características como el orden de las palabras pueden variar de un idioma a otro). Finalmente, un sistema de texto a voz (TTS) genera audio personalizado con un sonido natural.
En el pasado, las tecnologías TTS funcionaban a partir de una enorme base de datos de audio que constaba de frases pregrabadas divididas en segmentos. Para generar voz a partir de texto, los sistemas se basarían en los fragmentos de audio apropiados en la base de datos y los unirían. Lo que resultó fue a menudo un diálogo robótico estereotipado que carece de las pausas, los cambios de tono, la prosodia y el flujo general característico del habla humana.
Los avances recientes en TTS han llevado a resultados con un sonido más natural. Generalmente, TTS se divide en dos pasos. El texto se transforma en características acústicas, generalmente en forma de espectrograma, y luego se aplica una herramienta llamada codificador de voz para transformar el espectrograma en audio.
El modelo Tacotron 2 de Google representó un gran avance en el primer paso, y su asociación con DeepMind, con sede en Londres, impulsó los avances en el segundo paso a través de una herramienta llamada WaveNet, que utiliza redes neuronales para convertir las características acústicas en muestras de audio. El discurso resultante, producido por estos modelos en lugar de fragmentos cosidos, fue más realista y humano. Hoy, dice el científico informático Brian Mak de la Universidad de Ciencia y Tecnología de Hong Kong, existen otros codificadores de voz basados en redes neuronales que funcionan tan bien como WaveNet.
Amazon siguió con sus propios avances, utilizando un enfoque de red neuronal para producir un habla con un sonido más natural para Alexa y para ajustar el estilo de voz del programa según el contexto. Por ejemplo, Alexa ahora suena diferente cuando transmite noticias o eventos actuales que cuando habla de una canción que acaba de reproducir.
Volver arriba
El futuro del doblaje
Mak, de la Universidad de Ciencia y Tecnología de Hong Kong, desarrolló un sistema que puede generar voz en un idioma diferente al mismo tiempo que conserva las características del hablante original. Su equipo entrenó su modelo con muestras de audio de 2380 personas, cada una de las cuales proporcionó solo 20 minutos de discurso de capacitación; Luego, el sistema modeló la voz de cada persona convirtiéndola en un vector de alta dimensión compuesto por 128 cualidades y características diferentes. Estas no son cualidades estándar como el tono y el tono; en cambio, el modelo de aprendizaje automático identifica las características distintivas de cada voz dentro de los datos de audio sin procesar. Los vectores, explica Mak, no son del todo explicables en términos humanos. «En este momento, suena como magia, pero si tenemos que decir exactamente qué representan los números en el vector, es muy difícil», dice Mak.
El sistema no incluye traducción, pero si desea generar habla en cantonés de un hablante de inglés, explica Mak, entonces ingresa el texto en cantonés y el audio resultante suena como el hablante en un idioma diferente. La tecnología funciona mejor si el hablante contribuyó al conjunto de entrenamiento, pero también es efectiva aproximadamente el 50 % de las veces para hablantes aleatorios que no ayudaron a entrenar el modelo, según Mak.
Deep-dub, una startup con sede en Tel Aviv, Israel, está desarrollando una tecnología que convierte rápidamente películas, series de televisión y otros contenidos de video a otros idiomas. Para crear un modelo de la voz de un actor, el sistema Deepdub segmenta una muestra de voz en partes y luego ejecuta la muestra a través de una red neuronal que mapea el estilo de habla de la persona. Esto, a su vez, genera un modelo que se puede aplicar al habla traducida y luego sintetizada en otros idiomas. El sistema mapea variables como tono, ritmo, timbre, expresividad y emoción.
«Si simplemente encadena la transcripción automática, la traducción y la síntesis de voz, terminará acumulando demasiados errores».
El director de ingresos de Deepdub, Oz Krakowski, se hace eco del punto de Mak de que hay cualidades que el modelo de aprendizaje automático identifica que no son reconocibles para los humanos. «Hay un límite en la cantidad de palabras que tenemos para describir el estilo de voz», dice Krakowski. «La máquina tiene mucho más, en el ámbito de cientos de miles de elementos específicos diferentes que la máquina está mapeando».
La compañía dice que su tecnología es capaz de generar un estilo de voz completo de solo dos a cinco minutos de audio de alta calidad. Sin embargo, esto no conduce a una traducción instantáneamente perfecta del tipo representado en la ciencia ficción. Según Krakowski, la tecnología Deepdub elimina las deficiencias comunes del habla generada por máquinas, como interrupciones en la voz, artefactos de sonido metálico y sonidos poco naturales. Sin embargo, cuanto mayor sea la expresividad en una muestra de voz (gritar o suplicar emocionalmente, por ejemplo), mayor será el desafío. La empresa afina la salida para llevar la calidad de los resultados a los estándares de Hollywood. Un revisor marca los segmentos que necesitan ajustes, luego instruye de manera efectiva al modelo para que se concentre en esa área en particular y corrija el fragmento del discurso.
La empresa de doblaje de voz con sede en Londres, Reino Unido, Papercup, también mantiene a los humanos informados, explica King de la Universidad de Edimburgo, quien asesora a la organización. Por ejemplo, además de otras aplicaciones y casos de uso, Papercup crea versiones dobladas de informes de noticias urgentes del medio digital. Persona enterada en cuestión de horas, traduciendo segmentos de noticias del inglés al español, lo que aumenta enormemente el alcance del medio. «Tendrán humanos corrigiendo en todas las etapas de ese proceso de reconocimiento, traducción y síntesis del habla», dice King. «Si simplemente encadena la transcripción automática, la traducción y la síntesis de voz, terminará acumulando demasiados errores».
Tanto Deepdub como Papercup tienen como objetivo reducir el número de estas iteraciones de revisión y acelerar el proceso. Deepdub espera poder reducir el tiempo requerido para doblar una película a otro idioma de las 15 a 20 semanas que se necesitan con actores de doblaje tradicionales a una cuestión de tres semanas.
Este año, Deepdub utilizará su tecnología para copiar al inglés múltiples programas en idiomas extranjeros del servicio de transmisión Topic. Papercup también está expandiendo su base de clientes, y Respeecher planea construir a partir de su Guerra de las Galaxias éxito al lanzar su propia solución de doblaje, junto con una herramienta de voz en off que permitirá a los actores actuar y generar discursos en otras voces.
«Si agrega algunos humanos y lo corrige, puede satisfacer algunos segmentos del mercado», dice King, «pero pasará bastante tiempo antes de que obtenga una transcripción perfecta seguida de una traducción y síntesis automáticas perfectas».
Otras lecturas
Breen, A. y Sharma, N.
Cómo hacemos que Alexa suene más humana, Amazon re:MARS, https://www.youtube.com/watch?v=FdVYnhzvQtQ
Liu, Z. y Mak, B.
Síntesis de texto a voz de múltiples hablantes en varios idiomas para la clonación de voz sin usar corpus paralelo para hablantes invisibles, ICASSP 2020, 26 de noviembre de 2019, https://arxiv.org/abs/1911.11601
rey, s.
Midiendo una década de progreso en Text-to-Speech. Loquensenero de 2014, https://doi.org/10.3989/loquens.2014.006
Van den Oord, A. y Dieleman, S.
Wavenet: un modelo generativo para audio sin formato, DeepMind Blog, 8 de septiembre de 2016, https://bit.ly/3pXZNzm
Wang, Y. et al.
Tacotron: Hacia la síntesis de voz de extremo a extremo, InterSpeech 2017; https://arxiv.org/abs/1703.10135
Volver arriba
Autor
Gregorio Mone es escritor científico y autor, más recientemente, de la novela Atlantis: La invasión accidental.
©2022 ACM 0001-0782/22/5
Se otorga permiso para hacer copias digitales o impresas de parte o la totalidad de este trabajo para uso personal o en el aula sin cargo, siempre que las copias no se hagan o distribuyan con fines de lucro o ventaja comercial y que las copias lleven este aviso y la cita completa en la primera página. Deben respetarse los derechos de autor de los componentes de este trabajo que no pertenezcan a ACM. Se permite hacer resúmenes con crédito. Para copiar de otro modo, volver a publicar, publicar en servidores o redistribuir a listas, se requiere un permiso y/o tarifa específicos previos. Solicite permiso para publicar a permisos@acm.org o envíe un fax al (212) 869-0481.
La Biblioteca digital es una publicación de la Association for Computing Machinery. Derechos de autor © 2022 ACM, Inc.
entradas no encontradas