A linguagem de programação Python pode suportar HTML 5 sites usando a biblioteca ' Html5lib . Esta biblioteca permite escrever scripts Python que analisam HTML 5 páginas usando uma estrutura de árvore . Estruturas de árvores são vistas hierárquicas de elementos da página web. Acessando elementos da página web é realizado usando uma árvore walker. A árvore walker ' caminha ' ao longo das conexões de nós da árvore , e pode percorrer toda a árvore . Você pode usar Python com ' Html5lib ' para abrir , ver e imprimir um site HTML 5. Coisas que você precisa
linguagem de programação Python 3.2 com Html5lib módulo
Show Mais instruções
1
Abra o editor de texto IDLE em Arquivos de Programas (ou pedidos de Macintosh) no diretório Python. Um arquivo de código fonte em branco abre
2
importar o módulo " Html5lib " escrevendo as seguintes instruções na parte superior do arquivo de código fonte: .
Importação html5lib
de treebuilders importação html5lib , treewalkers , serializador
importação urllib2
3
Crie um novo HTML 5 analisador , o que você vai usar para ler um site HTML . Declarando um novo analisador , escrevendo o seguinte :
parser = html5lib.HTMLParser ()
4
abrir um site passando seu nome para a função urllib2.urlopen . Por exemplo, se você deseja abrir " www.website_adddress.com ", escreve o seguinte : .
URL = urllib2.urlopen ( " http://www.website_address.com " ) ler () < br >
5
Passe o website para o HTML 5 analisador para receber uma representação em árvore . Salve essa representação em uma variável chamada " árvore " , escrevendo a seguinte declaração :
árvore = parser.parse (URL)
6
Criar uma árvore walker assim:
TreeWalker = treewalkers.getTreeWalker ( "dom" )
7
Percorra a árvore usando a árvore walker. A árvore walker irá retornar um fluxo de informações que ele descobre em HTML 5 website. Para percorrer a árvore, escrever o seguinte:
stream = TreeWalker (árvore)
8
Serializar o fluxo de modo que você pode facilmente a saída para o console . Você pode serializar o fluxo usando as seguintes instruções :
série = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False )
output = serial.serialize (stream )
9
Iterate através da saída serializada do fluxo assim:
para o elemento na produção :
10
recuo da linha imediatamente após a instrução anterior e escrever uma função de impressão , como esta :
impressão (elemento)
11
Execute o programa pressionando F5. O script será aberta e , em seguida, analisar uma página web HTML 5. O script , em seguida, serializa a estrutura da árvore da página e envia -lo para o console. A saída vai variar de acordo com a página web escolhida, mas pode ser algo como isto :
Bem-vindo a uma página da web !