Programação  
 
Conhecimento computador >> Programação >> Programação De Computador Idiomas >> 
Como Fazer um Web Bot
Os motores de busca , como o Google ou o Yahoo! , puxar as páginas da Web em seus resultados de busca usando bots Web (também chamados às vezes spiders ou crawlers ) , que são programas que varrem os sites da Internet e de índice em um banco de dados. Bots Web pode ser feita usando a maioria das linguagens de programação , incluindo C , Perl, Python e PHP , os quais permitem que os engenheiros de software para escrever scripts que executam tarefas processuais, tais como a digitalização da Web e indexação. Instruções
1

Abra um aplicativo de edição de texto simples, como o Notepad , que está incluído no Microsoft Windows ou do Mac OS X TextEdit , onde você autor de uma aplicação Web bot Python.
< Br > 2

Inicie o script Python , incluindo as seguintes linhas de código, e substituir o exemplo de URL com o URL do site que você deseja digitalizar eo nome do banco de dados exemplo, com o banco de dados que irá armazenar os resultados :

urllib2 importação, re , stringenter_point = ' http://www.exampleurl.com ' db_name = ' example.sql '
3

Inclua as seguintes linhas de código para definir a seqüência de operações que o bot web seguirá :

def uniq (seq ) : set = {} mapa ( set.__setitem__ , seq , [] ) return set.keys ()
< br > 4

obter as URLs na estrutura do site , usando as seguintes linhas de código:

def geturls (URL): itens = [] = pedido urllib2.Request (url) request.add.header ( 'Usuário ', ' Bot_name ;) ') content = urllib2.urlopen ( pedido). ler ( itens) = re.findall ( 'href = " http://. ?'" , o conteúdo ) urls = [] retorno urls
5

Defina o banco de dados que o bot irá utilizar web e especificar as informações que ele deve armazenar para completar fazendo com que o bot web:

db = open ( nome_db , 'a') allurls = uniq ( geturls ( enter_point ) )
6

Salve o documento de texto e enviá-lo para um servidor ou computador com uma conexão à internet , onde você pode executar o script e começar a páginas web de digitalização.

Anterior :

Próximo : No
  Os artigos relacionados
·Diferença entre determinísticas e não determinístic…
·O que acontece quando um thread separada Chamadas Exit …
·Quais são Sintaxe & String no código de computador 
·Como instalar um tema WSP 
·Como converter um programa Lisp para uma macro ME10 
·Como Normalizar uma Matriz em MatLab 
·Como reduzir tamanho do arquivo em XNA 
·Como vincular formulários incorporados em Symfony 
·O que é o Python 2.2.3 
·Como usar DTrace como um Profiler Memória 
  Artigos em destaque
·Como redefinir o Espere MATLAB 
·Como fazer Adição de Vetores em C 
·Como ler em Cordas em array C + + 
·Como Vá até uma linha em um DataGridView 
·Como enviar um SMS no Android API 
·Como colocar Integer Array in Função Linguagem C 
·Como usar o GDB Debugger por GNU 
·A diferença entre ASP Botões Botões HTML 
·Como usar IO OCX USB em C 
·Como editar o Silverlight Datagrid 
Cop e direita © Conhecimento computador http://ptcomputador.com Todos os Direitos Reservados