traductor voz a voz : octubre 2014

lunes, 20 de octubre de 2014

Arquitectura de un sistema de traducción voz a voz

La traducción voz a voz es un interesante campo en el que muchas empresas e instituciones

están dedicando esfuerzos para lograr avances en la aplicabilidad de la técnica en

los distintos dominios mencionados en la sección anterior.

En la Figura se puede observar que un sistema de traducción voz a voz (SST:

Speech-to-Speech Translation) se puede dividir en tres componentes básicos bien diferenciados:

Reconocimiento automático del habla (ASR: Automatic Speech Recognition). La entrada

de un SST es la voz del locutor que se desea traducir. El sistema de ASR

convierte la voz origen en texto usando técnicas estadísticas de modelado acústico y

decodificación.

Traducción automática (MT: Machine Translation). El texto en el idioma origen

se traduce al idioma destino usando un sistema de traducción automática. En esta

etapa se tienen en cuenta ciertas particularidades de los idiomas origen y destino,

tales como el ordenamiento diferente de las palabras en la oración, declinaciones,

etc.

Síntesis de voz (TTS: Text-to-Speech). El texto traducido es la entrada del sistema de

síntesis de voz. Este sistema convierte el texto en voz usando una prosodia generada

automáticamente a partir del texto.

Para tener una idea más detallada del funcionamiento de cada uno de los componentes

de un sistema de traducción voz a voz, daremos en las siguientes secciones una introducción

al reconocimiento automático del habla , traducción automática

El proceso de conversión texto a voz procesamiento del texto, generación de la prosodia y generación de la voz sintética. En el primero de

los módulos se realiza la normalización del texto (para expandir abreviaciones, convertir

números y fechas en texto, etc), y en ocasiones, luego también se hace un etiquetado

morfosintáctico. A continuación se procede a la conversión de los grafemas en fonemas

y a la silabificación para obtener la secuencia de fonemas necesaria para reproducir el

texto. Posteriormente, el módulo de prosodia genera la información prosódica para poder

producir la voz. Para ello se predicen las frases entonativas y la entonación de la oración,

y también la duración y la energía de los fonemas, etc. La correcta generación de esta

información repercutirá directamente en la naturalidad y expresividad del sistema. En

el último modulo de generación de la voz es donde se produce la voz considerando la

información provista por los módulos de procesamiento del texto y prosodia.

Synchronous Overlap Add). Dicho método fue desarrollado por France Telecom (CNET),

y es utilizado por muchos sistemas de síntesis comerciales. Existen varias versiones del

algoritmo PSOLA, pero en general todas ellas se basan en el mismo principio. La versión

en el dominio del tiempo es TD-PSOLA, y es la más comúnmente usada debido a su eficiencia

computacional . El algoritmo básico consiste en tres pasos :

análisis de la señal original dividiéndola en tramos solapados sincronizados con el pitch,

modificación de la señal analizada, y generación de la señal sintética mediante la recombinación

por suma solapada . Los primeros sistemas de concatenación tenían una

única muestra de cada unidad de síntesis, por ejemplo, de cada difonema.

Los sistemas de síntesis por concatenación asumen que las variaciones acústicas que

se pueden producir en un fonema son atribuibles a diferencias en el tono y la duración.

Además también consideran que los algoritmos de procesamiento de señal son capaces de

realizar todos los cambios necesarios en el tono y la duración sin incurrir en una pérdida

de naturalidad y de suavizar las discontinuidades para que sean imperceptibles