Programação  
 
Conhecimento computador >> Programação >> Programação Python >> 
Como usar Html5lib em Python
A linguagem de programação Python pode suportar HTML 5 sites usando a biblioteca ' Html5lib . Esta biblioteca permite escrever scripts Python que analisam HTML 5 páginas usando uma estrutura de árvore . Estruturas de árvores são vistas hierárquicas de elementos da página web. Acessando elementos da página web é realizado usando uma árvore walker. A árvore walker ' caminha ' ao longo das conexões de nós da árvore , e pode percorrer toda a árvore . Você pode usar Python com ' Html5lib ' para abrir , ver e imprimir um site HTML 5. Coisas que você precisa
linguagem de programação Python 3.2 com Html5lib módulo
Show Mais instruções
1

Abra o editor de texto IDLE em Arquivos de Programas (ou pedidos de Macintosh) no diretório Python. Um arquivo de código fonte em branco abre
2

importar o módulo " Html5lib " escrevendo as seguintes instruções na parte superior do arquivo de código fonte: .

Importação html5lib

de treebuilders importação html5lib , treewalkers , serializador

importação urllib2
3

Crie um novo HTML 5 analisador , o que você vai usar para ler um site HTML . Declarando um novo analisador , escrevendo o seguinte :

parser = html5lib.HTMLParser ()
4

abrir um site passando seu nome para a função urllib2.urlopen . Por exemplo, se você deseja abrir " www.website_adddress.com ", escreve o seguinte : .

URL = urllib2.urlopen ( " http://www.website_address.com " ) ler () < br >
5

Passe o website para o HTML 5 analisador para receber uma representação em árvore . Salve essa representação em uma variável chamada " árvore " , escrevendo a seguinte declaração :

árvore = parser.parse (URL)
6

Criar uma árvore walker assim:

TreeWalker = treewalkers.getTreeWalker ( "dom" )
7

Percorra a árvore usando a árvore walker. A árvore walker irá retornar um fluxo de informações que ele descobre em HTML 5 website. Para percorrer a árvore, escrever o seguinte:

stream = TreeWalker (árvore)
8

Serializar o fluxo de modo que você pode facilmente a saída para o console . Você pode serializar o fluxo usando as seguintes instruções :

série = serializer.htmlserializer.HTMLSerializer ( omit_optional_tags = False )

output = serial.serialize (stream )
9

Iterate através da saída serializada do fluxo assim:

para o elemento na produção :
10

recuo da linha imediatamente após a instrução anterior e escrever uma função de impressão , como esta :

impressão (elemento)
11

Execute o programa pressionando F5. O script será aberta e , em seguida, analisar uma página web HTML 5. O script , em seguida, serializa a estrutura da árvore da página e envia -lo para o console. A saída vai variar de acordo com a página web escolhida, mas pode ser algo como isto :





Bem-vindo a uma página da web !





Anterior :

Próximo : No
  Os artigos relacionados
·Como converter tipo de matriz para Float Python 
·Como Fazer um osciloscópio em Python 
·Como converter um dicionário para XML em Python 
·Como fazer Condicionais em Python 
·Como: Python para PDF 
·Como lidar com Nested Tuples em Python 
·Recursos Python 
·Como fazer espaços entre várias seqüências de carac…
·Como Índice de uma lista de Python 
·Como fazer um relógio em Python 
  Artigos em destaque
·Como reinstalar um módulo CPAN 
·Como teste para automação móvel 
·Como adicionar um retorno de carro para um arquivo de t…
·Como classificar verbo no COBOL Programa 
·Como fazer um instalador Java 
·Como alterar o NetBeans Fonte 
·Como converter INT para String em Java 
·Como alterar uma imagem de fundo em Rollover 
·Como executar um script Python Do Shell 
·Usos para uma função recursiva 
Cop e direita © Conhecimento computador http://ptcomputador.com Todos os Direitos Reservados