Programação  
 
Conhecimento computador >> Programação >> Programação De Computador Idiomas >> 
Como criar uma Teia de aranha
A teia de aranha é uma aplicação de computador que faz o download de uma página web , em seguida, segue todos os links na página e baixa -los também. Web spiders são usados ​​para armazenar sites para leitura offline , ou para o armazenamento de páginas da web em banco de dados para ser usado por um motor de busca . Criando uma teia de aranha é uma tarefa desafiadora , adequado para uma classe de programação de nível universitário . Estas instruções assumem que você tem experiência em programação sólida, mas nenhum conhecimento de arquitetura de aranha. Os passos traçar uma arquitetura muito específica para escrever uma aranha Web no seu idioma escolhido. Coisas que você precisa
browser que responde a comandos programáticos
Linguagem de programação com acesso ao disco de leitura e gravação e funções de banco de dados de
Mostrar Mais instruções
1

Inicializar o seu programa com a página web inicial que você deseja baixar. Adicione o URL para essa página para uma nova tabela de banco de dados de URLs .
2

Envie um comando para o navegador web instruindo-o a buscar esta página web, e guardá-lo para um disco. Mova o ponteiro do banco de dados para a frente um passo além da URL que você acabou de baixar , que agora irá apontar para o fim da tabela .
3

Leia a página web para o programa, e analisá-lo para links para páginas web adicionais. Isso normalmente é feito através de pesquisa para o texto string " http://", e capturar o texto entre essa string e um caractere de terminação (como " ", " . " Ou " >"). Adicione esses links para a tabela de banco de dados URL , o ponteiro do banco de dados devem permanecer no topo desta nova lista
4

Teste as entradas na tabela de banco de dados para a singularidade, e remover quaisquer URLs que aparecem mais de uma vez . .
5

Se você deseja aplicar um filtro de URL (por exemplo, para evitar o download de páginas de sites em domínios diferentes ) , aplicá-lo agora para a tabela de banco de dados de URL e remover quaisquer URLs que você não deseja para download.
6

Configurar um ciclo programático que a sua aranha volta para o passo 2 acima. Isto irá recursivamente baixar todas as URLs seus encontros de aranha. Remoção de URLs duplicadas garante que a aranha vai terminar corretamente quando atinge o último URL único.

Anterior :

Próximo : No
  Os artigos relacionados
·Como converter Hex para Decimal no Oracle 
·O que é o Tampão & unbuffer em Memória 
·Como verificar se uma figura existe em MATLAB 
·Como criar um script para aplicar privilégios para um …
·Como instalar o Dolphin Just Host 
·Como criar uma base de dados de CFC 
·Como fazer upload de uma imagem em Struts 
·Como desinstalar o Host Intrusion Prevention 
·Silverlight Sockets Tutorial 
·Como desativar a autenticação PAM 
  Artigos em destaque
·Vs Formal . Semi formais Métodos Algoritmo 
·Como usar os parâmetros de linha de comando em C + + 
·O que é um manipulador de eventos 
·Como converter uma entrada para um Integer 
·Como fazer uma lista suspensa Log-In 
·Como usar ponteiros void em C 
·Como conectar VB6.0 & VC + + 
·Como editar um arquivo WAB 
·Como retornar uma referência a Vector C 
·Como : HTML trechos em Mensagens 
Cop e direita © Conhecimento computador http://ptcomputador.com Todos os Direitos Reservados