lunes, 20 de octubre de 2014
Arquitectura de un sistema de traducción voz a voz
La traducción voz a voz es un interesante campo en el que muchas empresas e instituciones
están dedicando esfuerzos para lograr avances en la aplicabilidad de la técnica en
los distintos dominios mencionados en la sección anterior.
En la Figura se puede observar que un sistema de traducción voz a voz (SST:
Speech-to-Speech Translation) se puede dividir en tres componentes básicos bien diferenciados:
Reconocimiento automático del habla (ASR: Automatic Speech Recognition). La entrada
de un SST es la voz del locutor que se desea traducir. El sistema de ASR
convierte la voz origen en texto usando técnicas estadísticas de modelado acústico y
decodificación.
Traducción automática (MT: Machine Translation). El texto en el idioma origen
se traduce al idioma destino usando un sistema de traducción automática. En esta
etapa se tienen en cuenta ciertas particularidades de los idiomas origen y destino,
tales como el ordenamiento diferente de las palabras en la oración, declinaciones,
etc.
Síntesis de voz (TTS: Text-to-Speech). El texto traducido es la entrada del sistema de
síntesis de voz. Este sistema convierte el texto en voz usando una prosodia generada
automáticamente a partir del texto.
Para tener una idea más detallada del funcionamiento de cada uno de los componentes
de un sistema de traducción voz a voz, daremos en las siguientes secciones una introducción
al reconocimiento automático del habla , traducción automática
lunes, 13 de octubre de 2014
El proceso de conversión texto a voz procesamiento del texto, generación de la prosodia y generación de la voz sintética. En el primero de
los módulos se realiza la normalización del texto (para expandir abreviaciones, convertir
números y fechas en texto, etc), y en ocasiones, luego también se hace un etiquetado
morfosintáctico. A continuación se procede a la conversión de los grafemas en fonemas
y a la silabificación para obtener la secuencia de fonemas necesaria para reproducir el
texto. Posteriormente, el módulo de prosodia genera la información prosódica para poder
producir la voz. Para ello se predicen las frases entonativas y la entonación de la oración,
y también la duración y la energía de los fonemas, etc. La correcta generación de esta
información repercutirá directamente en la naturalidad y expresividad del sistema. En
el último modulo de generación de la voz es donde se produce la voz considerando la
información provista por los módulos de procesamiento del texto y prosodia.
Synchronous Overlap Add). Dicho método fue desarrollado por France Telecom (CNET),
y es utilizado por muchos sistemas de síntesis comerciales. Existen varias versiones del
algoritmo PSOLA, pero en general todas ellas se basan en el mismo principio. La versión
en el dominio del tiempo es TD-PSOLA, y es la más comúnmente usada debido a su eficiencia
computacional . El algoritmo básico consiste en tres pasos :
análisis de la señal original dividiéndola en tramos solapados sincronizados con el pitch,
modificación de la señal analizada, y generación de la señal sintética mediante la recombinación
por suma solapada . Los primeros sistemas de concatenación tenían una
única muestra de cada unidad de síntesis, por ejemplo, de cada difonema.
Los sistemas de síntesis por concatenación asumen que las variaciones acústicas que
se pueden producir en un fonema son atribuibles a diferencias en el tono y la duración.
Además también consideran que los algoritmos de procesamiento de señal son capaces de
realizar todos los cambios necesarios en el tono y la duración sin incurrir en una pérdida
de naturalidad y de suavizar las discontinuidades para que sean imperceptibles
Suscribirse a:
Entradas (Atom)

