Enfoque
Este proyecto proporciona un estudio descriptivo, cualitativo y cuantitativo, sobre la deacentuación de la información dada en inglés, también conocida como regla de anáfora, en el software de inteligencia artificial neuronal de texto a voz (Text To Speech) de Amazon: Polly. Este software TTS no es un programa estándar de síntesis concatenativa. En su lugar, como explica Amazon en la guía para desarrolladores, es un software neuronal que incluye dos elementos principales. Primero, los bloques de construcción del lenguaje más fundamentales, los fonemas, se transforman en espectrogramas por una red neuronal. Y en segundo lugar, un codificador convierte esos espectrogramas en señales de audio. Un modelo secuencia a secuencia es el primer elemento del sistema neuronal, que tiene en cuenta cómo los elementos de entrada (el texto) interactúan para producir el audio de salida. Los espectrogramas generados se seleccionan de manera que los niveles de frecuencia seleccionados enfatizan las mismas características acústicas que el cerebro humano utiliza para procesar el habla. Según la información corporativa de Amazon, este tipo de voz sintética es ”la voz más natural y parecida a la humana posible”.
En nuestro estudio, hemos utilizado 10 frases como texto de entrada, en las que cada una incluye elementos de información dada, para probar si el software aplica o no la deacentuación prosódica de la información dada en inglés. Estas frases fueron seleccionadas de entre un grupo de expresiones espontáneas reales producidas por hablantes nativos de inglés en el documental de la BBC Los últimos días de Ana Bolena (2013). Los tipos de voz seleccionados para nuestro análisis, hasta ahora, son las voces británicas y estadounidenses que ofrece el software. En total tenemos 4 voces británicas (2 masculinas y 2 femeninas) y 9 voces estadounidenses (4 masculinas y 5 femeninas). Cada frase ha sido producida por las voces del software, descargada en formato de audio y analizada usando el software de análisis acústico Praat. De esta manera, podemos medir y evaluar los contornos y los grupos tonales para cada una y verificar si Polly aplica o no la regla de anáfora.
Tras analizar 130 frases y 143 muestras de deacentuación en los archivos de audio generados, descubrimos que el 96,5% de las producciones acústicas generadas por las voces sintéticas en Polly no cumplen la norma y no deacentúan la información dada o conocida como lo sí haría un hablante nativo inglés. Este software TTS, utilizado a nivel mundial, no logra diferenciar la información dada de la conocida, lo cual es muy relevante ya que el TTS de IA está reemplazando las voces humanas en muchos productos audiovisuales, como módulos de e-learning, audiolibros, videojuegos, etc.. En consecuencia, las empresas podrían ver cómo partes relevantes de su contenido no se destacan adecuadamente cuando son producidas por voces de IA, y los consumidores podrían estar recibiendo mensajes sin la fuerza ilocucionaria esperada transmitida por este fenómeno prosódico.
Alfonso Carlos Rodríguez Fernández-Peña
Comentó el 29/11/2023 a las 16:31:23
Hola, Tamara:
Gracias por tu pregunta. Sí, he analizado otros tres y ninguno consigue reproducir satisfactoriamente la desacentuación anafórica. Este análisis de estos otros sistemas se publicará en breve. La verdad es que busco y no encuentro, de momento, ninguno que lo consiga. La cuestión está en que en inglés se desacentúa pero también se reacentúa si la situación o la intención del hablante lo exige. Por eso, al ser una reacción humana y meditada (pues es un acto consciente) según el contexto y la intención, la máquina no sabe tomar decisiones y lo hace todo mayormente igual.
Tamara Aller Carrera
Comentó el 29/11/2023 a las 15:40:08
Muy interesante tu trabajo Alfonso. ¿Has analizado más conversores de texto a audio? ¿No hay ninguna que se aproxime a la acentuación humana?
Gracias,
Tamara Aller
Deja tu comentario
Lo siento, debes estar conectado para publicar un comentario.
Organizan
Colaboran