Analisando XML representa um desafio para o analisador de texto pretensos devido a extensibilidade do XML. Convenções de formatação XML são de natureza hierárquica , ou seja, algumas tags dominar outras tags. Expressões Regulares ( expressões regulares ) identificar padrões de texto XML - uma regex para combinar tags XML irá corresponder a tudo dentro de tags XML <> , mas não exibirá a organização hierárquica dessas tags. É possível separar essa estrutura tag do texto usando a linguagem de programação Python eo pacote Toolkit Linguagem Natural , que incorpora expressões regulares e manipulação de texto e pode exibir as tags XML e sua organização . Instruções
1
Abra uma janela de terminal e digite o comando " python- v" no prompt para verificar a presença ea versão do Python em seu computador. Vá para a página inicial NLTK e baixar o instalador NLTK pacote apropriado para seu sistema operacional. Verifique se NLTK está instalado corretamente , digitando o comando ">>> nltk import" no prompt do Python.
2 Tipo
">>> nltk.download ()" para abrir uma janela. Escolha a linha " tudo " e clique no botão de download . Isto irá baixar uma série de textos para NLTK para trabalhar, entre eles Shakespeare " O Mercador de Veneza " formatado com tags XML especiais para peças de teatro.
3
Importe o Mercador de Veneza marcado em XML com o seguinte comando no prompt do Python:
>>> merchant_file = nltk.data.find (' corpora /shakespeare /merchant.xml ')
Atribuir o arquivo de um variável , de modo que você pode manipulá-lo com comandos Python : .
>>> raw = open ( merchant_file ) read ()
Só para ter certeza que ele está lá , digite o comando abaixo para ler os primeiros 168 caracteres :
>>> print bruto [ 0:168 ]
Você vai ver as tags de cabeçalho XML e as marcas especiais de reprodução XML < br. >
4
Digite o seguinte comando no prompt do Python: >>>
de importação nltk.etree.ElementTree ElementTree
e pressione "Return ", então digite o seguinte no prompt do Python: .
>>> comerciante = ElementTree () analisar ( merchant_file )
o comando de análise permite ao usuário visualizar as tags XML e seu conteúdo . Para construir uma visão hierárquica de tags XML corretamente aninhados , digite o seguinte comando no prompt do Python:
>>> merchant.getchildren ()
Isto irá mostrar toda a XML especial jogar as etiquetas em sua ordem hierárquica. A saída deste comando deve ser semelhante a este :
[ , , , , < , Elemento ACT em 22cc0f8 > , , , , ]
< br >