Os motores de busca , como o Google ou o Yahoo! , puxar as páginas da Web em seus resultados de busca usando bots Web (também chamados às vezes spiders ou crawlers ) , que são programas que varrem os sites da Internet e de índice em um banco de dados. Bots Web pode ser feita usando a maioria das linguagens de programação , incluindo C , Perl, Python e PHP , os quais permitem que os engenheiros de software para escrever scripts que executam tarefas processuais, tais como a digitalização da Web e indexação. Instruções
1
Abra um aplicativo de edição de texto simples, como o Notepad , que está incluído no Microsoft Windows ou do Mac OS X TextEdit , onde você autor de uma aplicação Web bot Python.
< Br > 2
Inicie o script Python , incluindo as seguintes linhas de código, e substituir o exemplo de URL com o URL do site que você deseja digitalizar eo nome do banco de dados exemplo, com o banco de dados que irá armazenar os resultados :
urllib2 importação, re , stringenter_point = ' http://www.exampleurl.com ' db_name = ' example.sql '
3
Inclua as seguintes linhas de código para definir a seqüência de operações que o bot web seguirá :
def uniq (seq ) : set = {} mapa ( set.__setitem__ , seq , [] ) return set.keys ()
< br > 4
obter as URLs na estrutura do site , usando as seguintes linhas de código:
def geturls (URL): itens = [] = pedido urllib2.Request (url) request.add.header ( 'Usuário ', ' Bot_name ;) ') content = urllib2.urlopen ( pedido). ler ( itens) = re.findall ( 'href = " http://. ?'" , o conteúdo ) urls = [] retorno urls
5
Defina o banco de dados que o bot irá utilizar web e especificar as informações que ele deve armazenar para completar fazendo com que o bot web:
db = open ( nome_db , 'a') allurls = uniq ( geturls ( enter_point ) )
6
Salve o documento de texto e enviá-lo para um servidor ou computador com uma conexão à internet , onde você pode executar o script e começar a páginas web de digitalização.