Python é um open-source , linguagem de programação orientada a objeto otimizado para a construção de aplicações Web dinâmicas . Ao programar em Python , você pode precisar para separar formatação HTML a partir de código Python. Por exemplo , um usuário pode inserir uma página da Web em um campo de dados, exigindo-lhe para retirar as tags HTML para armazenar os dados textuais. Para remover tags HTML de uma string, usar o built -in módulo Python expressão regular, " Regex ". Instruções
1
Abra seu editor de Python.
2
Carregue o módulo de Expressões Regulares , digitando o seguinte :
importar re
3
Definir uma função para remover todas as tags HTML . Por exemplo, digite o seguinte:
def delete_html ( dados):
4
Separe os elementos de código HTML usando a função " re.compile " para compilar os padrões de expressões regulares em um objeto que você pode usar para o padrão correspondente. Continuando o exemplo , digite o seguinte:
htmlPattern = re.compile (r '< * . > ')
Neste exemplo, o " re.compile " atributo diz ao Python para procurar a seqüência " '< .. > ", que significa o início e término tags HTML
. o qualificador " . * ? " diz Python para combinar apenas as tags. Sem o qualificador , Python retorna a string "
subhead
" ; com o qualificador , Python retorna
5 "
e
".
Substitua um espaço para todos os códigos HTML utilizando a função "sub" . Continuando o exemplo , digite o seguinte :
retornar htmlPattern.sub ( '' , dados )
Neste caso , Python retira o código HTML e substitui-lo com um espaço em branco. Neste ponto, dependendo de como você deseja estruturar os dados, você pode utilizar a função string " strip" para remover espaços em branco ou usar expressões regulares , como " s + \\ ", para remover os espaços extras. < Br >