A estrutura e sintaxe da HyperText Markup Langauge , ou HTML, diz não somente um browser como exibir o conteúdo do arquivo , mas também identifica dados estruturais sobre o próprio arquivo. Essas tags também são de valor inestimável se você é um programador olhando para codificar um programa que tira fora seções específicas de um arquivo HTML , como o seu cabeçalho e rodapé. HTML Anatomy
HTML usa um sistema simples de mark-up tags para identificar as diferentes partes de um documento HTML. Cabeçalho do arquivo HTML é marcado pela tag "
" , o rodapé pela tag
. Um leitor de código HTML irá interpretar qualquer coisa entre a tag de abertura ea tag que indica perto da seção, " através de " ", como parte da seção indicada. Outras marcas , como " " correspondem a outros componentes do arquivo.
Identificar cabeçalhos e rodapés
Quando você está criando código para retirar longe cabeçalhos e rodapés HTML , você não pode confiar em saber exatamente quanto tempo o cabeçalho ou rodapé será. Enquanto alguns cabeçalhos e rodapés consistem em uma única linha , eles poderiam ser muito mais tempo. Conseqüentemente, seu código não pode simplesmente procurar a " / " tag então o símbolo '\\ n' que indica o fim de uma linha . Quando você lê o conteúdo do arquivo HTML em uma seqüência de caracteres , você terá que identificar a posição de índice do primeiro "<" da tag inicial, bem como o ">" da tag terminal. < Br >
Localizando corda Posições
Ambas as linguagens de baixo nível como C e C + + e linguagens de alto nível como Python e Ruby têm métodos para ajudá-lo a localizar os itens de texto dentro de um determinado string. Esses métodos irão retornar a posição de índice do primeiro caractere do texto que você está procurando. Quando você estiver procurando as marcas iniciais , isso vai lhe dar o seu ponto de partida para a remoção de texto. Quando você está procurando a tag terminal, lembre-se que o ponto que você quer ou é seis ( " ") ou sete ("< /footer >") posições na frente do número do método dá você .
Código Striping
Depois de ter as posições de índice para o cabeçalho ou rodapé segmento que você deseja remover , você pode ir sobre fazê-lo em uma das duas geral maneiras . Um deles é para chamar os métodos apropriados para apagar os caracteres entre a primeira ea última posições de índice para o segmento . Isso vai editar diretamente a string original . Você também pode criar uma nova seqüência para criar duas versões do conteúdo do arquivo HTML : o arquivo original e uma versão simplificada do código de cabeçalho e rodapé. Para fazer isso, atribuindo o conteúdo da string original até a posição de índice inicial , e então tudo após a última posição do índice , para a nova cadeia .