Um sintetizador de fala toma 
 texto  como sua entrada primária. Este texto pode estar em vários formatos: 
 * 
 Texto simples: O formato mais comum, contendo apenas caracteres e pontuação. 
 * 
 texto formatado: Inclui formatação de elementos como negrito, itálico e quebras de linha. 
 * transcrições fonéticas: Usando símbolos fonéticos para representar os sons do texto. 
 * 
 Informações prosódicas: Informações adicionais sobre o ritmo, a entonação e a ênfase do texto.   
 Além do texto, alguns sintetizadores de fala podem aceitar entradas adicionais:   * 
 Parâmetros de voz: Permitir que os usuários personalizem a voz sintetizada, como gênero, idade, sotaque e tom emocional. 
 * 
 Sinais de áudio: Para aplicações como a conversão de voz em tempo real, onde o sintetizador modifica um sinal de áudio existente.  
 A maneira como o sintetizador processa essas entradas pode variar bastante, variando de sistemas simples baseados em regras a modelos complexos de aprendizado profundo. No entanto, o princípio central permanece o mesmo:
 convertendo texto em sinais de fala.