Um arquivo FASTA formato contém um ou mais seqüências de nucleotídeos no DNA. O formato FASTA originou-se com o pacote de software FASTA de sequenciamento de DNA , embora se tenha tornado um formato padrão para a representação de sequências de DNA em bioinformática . FASTA é um formato simples que faz seqüências fácil de analisar o uso de linguagens de script como Perl e Python. Visão geral
A base de um arquivo é uma linha começando com o caractere " >" e seguido de texto identificando a origem da seqüência. A linha de cabeçalho é tipicamente menos de 80 caracteres . A linha a seguir esta linha de cabeçalho contém uma série de personagens que representam nucleotídeos no DNA ou resíduos de aminoácidos em uma seqüência de peptídeos.
Permitidos caracteres de DNA
caracteres Apenas significativos são permitidos como parte de uma seqüência FASTA . As sequências podem consistir de A, C , T, G ou U , correspondente aos nucleótidos de adenosina , citosina , timidina , guanina ou uracilo , respectivamente . No entanto , a identidade exacta de nucleótido pode não estar sempre presente a partir da sequenciação . FASTA também contém códigos que representam os possíveis nucleotídeos quando a incerteza está presente. O código N é utilizado quando nenhuma determinação pode ser feita, e X , quando o nucleótido é mascarado por outras moléculas . O "-" código é usado para representar um intervalo de comprimento indeterminado
admitidos Peptídeo Personagens
um código alfanumérico que pode também ser usado para representar . os ácidos 24 amino presentes em uma sequência peptídica . Se um péptido não pode ser determinada , o código X são utilizados , de forma semelhante a uma sequência de ADN . Um " * " é usado para indicar a sequência de terminal ou de paragem da tradução de um péptido . A "- " . Também é usado para representar uma lacuna nos dados de sequenciamento de peptídeos
Outras Informações
O NCBI define um ID de seqüência padrão ou SEQID , para uso em linhas de cabeçalho FASTA , porém não existe um padrão definitivo para a inclusão na linha de cabeçalho FASTA . Um arquivo FASTA contendo várias seqüências é conhecido como um arquivo multi- FASTA . Arquivos FASTA pode ter a extensão de arquivo " . Fasta ", " . Fna ", " . Ffn ", " . Faa, " . " FRN " ou " . Fas . " < Br >