A teia de aranha é uma aplicação de computador que faz o download de uma página web , em seguida, segue todos os links na página e baixa -los também. Web spiders são usados para armazenar sites para leitura offline , ou para o armazenamento de páginas da web em banco de dados para ser usado por um motor de busca . Criando uma teia de aranha é uma tarefa desafiadora , adequado para uma classe de programação de nível universitário . Estas instruções assumem que você tem experiência em programação sólida, mas nenhum conhecimento de arquitetura de aranha. Os passos traçar uma arquitetura muito específica para escrever uma aranha Web no seu idioma escolhido. Coisas que você precisa
browser que responde a comandos programáticos
Linguagem de programação com acesso ao disco de leitura e gravação e funções de banco de dados de
Mostrar Mais instruções
1
Inicializar o seu programa com a página web inicial que você deseja baixar. Adicione o URL para essa página para uma nova tabela de banco de dados de URLs .
2
Envie um comando para o navegador web instruindo-o a buscar esta página web, e guardá-lo para um disco. Mova o ponteiro do banco de dados para a frente um passo além da URL que você acabou de baixar , que agora irá apontar para o fim da tabela .
3
Leia a página web para o programa, e analisá-lo para links para páginas web adicionais. Isso normalmente é feito através de pesquisa para o texto string " http://", e capturar o texto entre essa string e um caractere de terminação (como " ", " . " Ou " >"). Adicione esses links para a tabela de banco de dados URL , o ponteiro do banco de dados devem permanecer no topo desta nova lista
4
Teste as entradas na tabela de banco de dados para a singularidade, e remover quaisquer URLs que aparecem mais de uma vez . .
5
Se você deseja aplicar um filtro de URL (por exemplo, para evitar o download de páginas de sites em domínios diferentes ) , aplicá-lo agora para a tabela de banco de dados de URL e remover quaisquer URLs que você não deseja para download.
6
Configurar um ciclo programático que a sua aranha volta para o passo 2 acima. Isto irá recursivamente baixar todas as URLs seus encontros de aranha. Remoção de URLs duplicadas garante que a aranha vai terminar corretamente quando atinge o último URL único.