Um sintetizador de fala toma
texto como sua entrada primária. Este texto pode estar em vários formatos:
*
Texto simples: O formato mais comum, contendo apenas caracteres e pontuação.
*
texto formatado: Inclui formatação de elementos como negrito, itálico e quebras de linha.
* transcrições fonéticas: Usando símbolos fonéticos para representar os sons do texto.
*
Informações prosódicas: Informações adicionais sobre o ritmo, a entonação e a ênfase do texto.
Além do texto, alguns sintetizadores de fala podem aceitar entradas adicionais: *
Parâmetros de voz: Permitir que os usuários personalizem a voz sintetizada, como gênero, idade, sotaque e tom emocional.
*
Sinais de áudio: Para aplicações como a conversão de voz em tempo real, onde o sintetizador modifica um sinal de áudio existente.
A maneira como o sintetizador processa essas entradas pode variar bastante, variando de sistemas simples baseados em regras a modelos complexos de aprendizado profundo. No entanto, o princípio central permanece o mesmo:
convertendo texto em sinais de fala.