El papel de la voz de la computadora en el futuro de la interacción humano-computadora basada en el habla

En la actualidad, nuestras interacciones con dispositivos y servicios basados en voz continúan aumentando. En este sentido, los investigadores del Instituto de Tecnología de Tokio y RIKEN, Japón, han realizado una meta-síntesis para comprender cómo percibimos e interactuamos con la voz (y el cuerpo) de varias máquinas. Sus hallazgos han generado conocimientos sobre las preferencias humanas y pueden ser utilizados por ingenieros y diseñadores para desarrollar tecnologías vocales futuras.

Como seres humanos, nos comunicamos principalmente de forma vocal y auditiva. Transmitimos no solo información lingüística, sino también las complejidades de nuestros estados emocionales y personalidades. Los aspectos de nuestra voz, como el tono, el ritmo y el tono, son vitales para la forma en que se nos percibe. En otras palabras, la forma en que decimos las cosas es importante.

Con los avances en tecnología y la introducción de robots sociales, agentes conversacionales y asistentes de voz en nuestras vidas, estamos expandiendo nuestras interacciones para incluir agentes, interfaces y entornos informáticos. La investigación sobre estas tecnologías se puede encontrar en los campos de la interacción hombre-agente (HAI), interacción hombre-robot (HRI), interacción hombre-computadora (HCI) y comunicación hombre-máquina (HMC), según el tipo de tecnología. en estudio. Numerosos estudios han analizado el impacto de la voz de la computadora en la percepción y la interacción del usuario. Sin embargo, estos estudios se extienden a través de diferentes tipos de tecnologías y grupos de usuarios y se centran en diferentes aspectos de la voz.

En este sentido, un grupo de investigadores del Instituto de Tecnología de Tokio (Tokyo Tech), Japón, el Centro RIKEN para el Proyecto de Inteligencia Avanzada (AIP), Japón, y gDial Inc., Canadá, han recopilado ahora los resultados de varios estudios en estos campos con la intención de proporcionar un marco que pueda guiar el diseño y la investigación futuros sobre la voz de la computadora. Como explica la investigadora principal, profesora asociada Katie Seaborn de Tokyo Tech (investigadora visitante y ex investigadora posdoctoral en RIKEN AIP), «los asistentes de voz, los altavoces inteligentes, los vehículos que pueden hablar con nosotros y los robots sociales ya están aquí. Necesitamos saber cuál es la mejor manera de hacerlo». para diseñar estas tecnologías para trabajar con nosotros, vivir con nosotros y satisfacer nuestras necesidades y deseos. También necesitamos saber cómo han influido en nuestras actitudes y comportamientos, especialmente en formas sutiles e invisibles «.

La encuesta del equipo consideró artículos de revistas revisados por pares y artículos de conferencias basados en actas donde el enfoque estaba en la percepción del usuario de la voz del agente. Los materiales originales abarcan una amplia variedad de tipos y tecnologías de agentes, interfaces y entornos, y la mayoría son voces informáticas «sin cuerpo», agentes informáticos y robots sociales. La mayoría de las respuestas de los usuarios documentadas fueron de estudiantes universitarios y adultos. A partir de estos artículos, los investigadores pudieron observar y mapear patrones y sacar conclusiones sobre las percepciones de la voz del agente en una variedad de contextos de interacción.

Los resultados mostraron que los usuarios antropomorfizaban a los agentes con los que interactuaban y preferían interacciones con agentes que coincidían con su personalidad y estilo de habla. Hubo preferencia por las voces humanas sobre las sintéticas. La inclusión de rellenos vocales como el uso de pausas y términos como «quiero decir …» y «um» mejoró la interacción. En general, la encuesta encontró que las personas prefieren las voces humanas, felices y empáticas con tonos más altos. Sin embargo, estas preferencias no fueron estáticas; por ejemplo, la preferencia del usuario por el género de la voz cambió con el tiempo de voces masculinas a voces más femeninas. Con base en estos hallazgos, los investigadores pudieron formular un marco de alto nivel para clasificar diferentes tipos de interacciones a través de varias tecnologías basadas en computadoras.

Los investigadores también consideraron el efecto del cuerpo, o la morfología y el factor de forma, del agente, que podría tomar la forma de un personaje, pantalla o interfaz virtual o física, o incluso un objeto o entorno. Descubrieron que los usuarios tendían a percibir mejor a los agentes cuando los agentes estaban encarnados y cuando la voz «coincidía» con el cuerpo del agente.

El campo de la interacción humano-computadora, particularmente el de la interacción basada en la voz, es un campo floreciente que continúa evolucionando casi a diario. Como tal, la encuesta del equipo proporciona un punto de partida esencial para el estudio y la creación de tecnologías nuevas y existentes en la interacción humano-agente basada en voz (vHAI). «Se espera que la agenda de investigación que surgió de este trabajo guíe cómo los agentes, las interfaces, los sistemas, los espacios y las experiencias basados en la voz se desarrollan y estudian en los próximos años», concluye el profesor Seaborn, resumiendo la importancia de sus hallazgos. .