Programação  
 
Conhecimento computador >> Programação >> Programação Python >> 
Como: Regex para analisar XML
Analisando XML representa um desafio para o analisador de texto pretensos devido a extensibilidade do XML. Convenções de formatação XML são de natureza hierárquica , ou seja, algumas tags dominar outras tags. Expressões Regulares ( expressões regulares ) identificar padrões de texto XML - uma regex para combinar tags XML irá corresponder a tudo dentro de tags XML <> , mas não exibirá a organização hierárquica dessas tags. É possível separar essa estrutura tag do texto usando a linguagem de programação Python eo pacote Toolkit Linguagem Natural , que incorpora expressões regulares e manipulação de texto e pode exibir as tags XML e sua organização . Instruções
1

Abra uma janela de terminal e digite o comando " python- v" no prompt para verificar a presença ea versão do Python em seu computador. Vá para a página inicial NLTK e baixar o instalador NLTK pacote apropriado para seu sistema operacional. Verifique se NLTK está instalado corretamente , digitando o comando ">>> nltk import" no prompt do Python.
2 Tipo

">>> nltk.download ()" para abrir uma janela. Escolha a linha " tudo " e clique no botão de download . Isto irá baixar uma série de textos para NLTK para trabalhar, entre eles Shakespeare " O Mercador de Veneza " formatado com tags XML especiais para peças de teatro.
3

Importe o Mercador de Veneza marcado em XML com o seguinte comando no prompt do Python:

>>> merchant_file = nltk.data.find (' corpora /shakespeare /merchant.xml ')

Atribuir o arquivo de um variável , de modo que você pode manipulá-lo com comandos Python : .

>>> raw = open ( merchant_file ) read ()

Só para ter certeza que ele está lá , digite o comando abaixo para ler os primeiros 168 caracteres :

>>> print bruto [ 0:168 ]

Você vai ver as tags de cabeçalho XML e as marcas especiais de reprodução XML < br. >
4

Digite o seguinte comando no prompt do Python: >>>

de importação nltk.etree.ElementTree ElementTree

e pressione "Return ", então digite o seguinte no prompt do Python: .

>>> comerciante = ElementTree () analisar ( merchant_file )

o comando de análise permite ao usuário visualizar as tags XML e seu conteúdo . Para construir uma visão hierárquica de tags XML corretamente aninhados , digite o seguinte comando no prompt do Python:

>>> merchant.getchildren ()

Isto irá mostrar toda a XML especial jogar as etiquetas em sua ordem hierárquica. A saída deste comando deve ser semelhante a este :

[ , , , , < , Elemento ACT em 22cc0f8 > , , , , ]
< br >

Anterior :

Próximo : No
  Os artigos relacionados
·Como criar um arquivo CSV De um JSON Python 
·Como controlar alterações em Python e Django 
·Como aceitar entrada do usuário com Python 
·Instalação não-raiz de módulos Python 
·Como a contagem regressiva na Faixa em Python 
·Como fazer uma cópia de um objeto com Python 
·Como se livrar de um caractere de nova linha em Python 
·Como compilar comandos Python 
·Como ler a última linha de um arquivo em Python 
·Como Chegar Python para obter uma saída Imagem 
  Artigos em destaque
·Javascript Vs Relevante. Path Absoluto 
·Como lidar com modos de Microprocessador 
·Como calcular Gigabytes 
·Como redirecionar uma página da Web em PHP 
·Como rodar imagens com telha em Java 
·Ajuda Com Grade Largura em Java 
·Usos para uma função recursiva 
·Como instalar o PHP Engine em um PC com Windows 
·Como excluir duplicatas de uma matriz em Java 
·Como criar um script PHP Login de MySQL 
Cop e direita © Conhecimento computador http://ptcomputador.com Todos os Direitos Reservados