As gravações de voz são a manifestação física da fala, e os fonemas são as menores unidades de som que distinguem significado em um idioma. O relacionamento é que uma gravação de voz * contém * uma sequência de fonemas.
Especificamente:
*
gravações de voz Capture o sinal acústico: Eles registram as vibrações das ondas sonoras produzidas pelas cordas vocais, língua, lábios, etc., como são emitidas por um orador. Esta é uma forma de onda contínua.
*
fonemas são unidades linguísticas abstratas: Eles não são diretamente observáveis na forma de onda; Em vez disso, eles são deduzidos do sinal acústico. Linguistas e cientistas da fala analisam as propriedades acústicas da gravação para identificar os fonemas que compõem as palavras faladas.
*
O mapeamento é complexo e não um para um: O mesmo fonema pode parecer diferente, dependendo do contexto (por exemplo, os sons circundantes, o sotaque do falante). Além disso, o sinal acústico contém muito mais do que apenas fonemas; Inclui recursos prosódicos como entonação, estresse e ritmo, além de ruído e outros artefatos.
Em suma, uma gravação de voz são os dados brutos; Os fonemas são a interpretação linguística de aspectos desses dados. A extração de fonemas de uma gravação de voz requer processamento sofisticado de sinal e conhecimento linguístico.