Raspagem e análise são duas práticas estreitamente relacionadas de mineração de dados do site. O mais geral , a análise, refere-se a decomposição dos dados nas suas partes constituintes . Quando a sua escola média professora de Inglês lhe pedi para diagramar frases, você estava analisando as palavras de essas frases para suas partes do discurso. Raspagem , mais especificamente, refere-se à análise de páginas web para determinados tipos de dados , neste caso , os endereços . A linguagem de programação Python ea extensão " BeautifulSoup " permitir que o usuário para raspar e analisar sites em poucas linhas de código. Coisas que você precisa
Python 2.6 ou superior
BeautifulSoup 3,2
Show Mais instruções
1
Instale BeautifulSoup baixando a versão mais recente do software porcaria e untar /unzip o arquivo . Abra uma janela do Terminal e digite o seguinte comando: My- iMac: ~ me $ python setup.py Downloads/BeautifulSoup-3.2.0/python instalar
Isto diz o interpretador Python para executar o script de instalação BeautifulSoup que pode ser encontrado na pasta BeautfulSoup , que está na pasta de downloads
2
Tipo Python na linha de comando , pressione Enter e BeautifulSoup importação : . My- iMac: ~ me $ python >>> import BeautifulSoup
3
Execute o seguinte script para abrir uma página web e imprimir quaisquer Universal Resource Locator (endereços web) que você pode encontrar em uma página : >>> urllib2 importação >> ; > page = urllib2.urlopen ( " http://www.THE URL que você deseja para raspar AQUI " ) >>> sopa = BeautifulSoup (página ) >>> soup.findAll ('a ') >>> print soup.strip ( ) >>> printThis script irá abrir uma página web, analisar o html , procure a tag em que os endereços da web são encaixados , remova as tags e deixar o texto.