A compactação do arquivo afeta os arquivos TXT (arquivos de texto sem formatação), reduzindo seu tamanho. Isso é conseguido explorando redundâncias e padrões dentro dos dados de texto. Diferentes algoritmos de compressão conseguem isso de várias maneiras, mas o princípio geral permanece o mesmo:
*
Compressão sem perdas: Este é o tipo mais comum usado para arquivos TXT. Os algoritmos de compressão sem perdas garantem que o texto original seja perfeitamente reconstruído após a descompressão. Eles trabalham identificando padrões repetidos, sequências de caracteres ou outros dados previsíveis e substituindo -os por códigos mais curtos. Exemplos incluem:
*
lz77/lz78 e seus derivados (por exemplo, zip, gzip, 7z): Esses algoritmos encontram sequências repetidas e as substituem por ponteiros para ocorrências anteriores, reduzindo efetivamente a redundância.
*
Codificação de Huffman: Esse algoritmo atribui códigos mais curtos a caracteres mais frequentes e códigos mais longos a outros, reduzindo o tamanho geral.
*
bzip2: Esse algoritmo usa uma transformação de rodas de tocas para reorganizar os dados antes de aplicar a codificação do Huffman, resultando em maiores índices de compressão.
*
Compressão com perda de perda: Esse tipo de compactação * não é * normalmente usado para arquivos TXT. Técnicas de compressão com perdas descartam algumas informações para obter maior redução de tamanho. Como descartar informações em um arquivo de texto alteraria seu significado, isso não é prático. Exemplos de compactação com perdas (que não são adequados para TXT) incluem JPEG para imagens e MP3 para áudio.
Quanta compactação é alcançada? A quantidade de compactação alcançada em um arquivo txt depende de vários fatores:
*
O tamanho do arquivo original: Arquivos maiores geralmente têm mais oportunidades de redundância, permitindo taxas de compressão mais altas.
*
O conteúdo do arquivo: Texto altamente repetitivo, como código com blocos repetidos ou um documento com muitas frases repetidas, comprime melhor do que um texto altamente aleatório (como uma sequência verdadeiramente aleatória de caracteres).
*
O algoritmo de compressão: Algoritmos diferentes têm eficiências diferentes. O BZIP2 geralmente atinge maior compressão que o GZIP, mas ao custo de velocidades de compressão e descompressão mais lentas.
Em resumo, a compactação de arquivos para arquivos TXT os torna menores para armazenamento e transmissão sem perder dados. A extensão da redução do tamanho depende da estrutura inerente do texto e do algoritmo de compressão escolhido.