Robôs, no contexto da Internet , significa programa de software que fazem a varredura de um site para coletar informações. Estes não são os vírus - não há código colocado em sua máquina, e quando o robô está acabado com o seu site, não há evidências de que o robô estava lá. O processo de coleta de informações não é necessariamente prejudicial - que você pode se beneficiar da visita. O Robots Exclusion Protocol (REP) permite que você tem algum controle sobre o processo. História
A idéia REP começou em 1994 com um grupo leitor robô ( [email protected] ) como uma forma de guiar robôs através de sites. A idéia básica era a instalação de um arquivo curto com nome conhecido e local a instrui o robô para onde olhar. Estas direções provavelmente seria ignorado por robôs malévolos , mas poderia ser usado por robôs benignos para salvá-los algum tempo examinando apenas alguns de seus arquivos . O protocolo básico foi reforçado em 2008 por um grande número das principais empresas de Internet , incluindo Yahoo e Google.
Robôs benignos
Há alguns robôs que você realmente deseja visitar seu site. Por exemplo, os motores de busca usam robôs para indexar a Internet. Começando com um único endereço do site , o robô classifica o site e mantém uma lista de todos os links encontrados no site. Em seguida, o robô vai para baixo a lista de endereços de sites coletados. Como a lista de novos sites criados a cada mês estão disponíveis ao público , há um acúmulo de sites para verificar que mantém os robôs trabalhando dia e noite . Você quer que estas visitas de robôs , porque você quer os motores de busca de conhecer e classificar o seu site para que os potenciais clientes podem encontrá-lo através de motores de busca.
Malevolent Robots
Os robôs também pode ser utilizado para fins destrutivos . Por exemplo, os robôs podem compilar uma lista de endereços de correio electrónico indexados por interesses . Para fazer isso , eles procuram qualquer coisa que tenha um símbolo " @" e tirar a corda em torno dele que é obrigado por espaços. É por isso que você vai ver alguns professores de ciência da computação dar o seu endereço como Professor.Abc { arroba } University.edu - é a folha de robôs do mal . Para classificar o seu endereço de e-mail de acordo com o interesse , o robô olha na declaração META que faz parte do código por trás de cada site.
REP Sintaxe
Os robôs . txt está instalado em um diretório. Se o seu site é www.widgits.com , o caminho para o arquivo robots.txt será www.widgits.com /robots.txt. A primeira linha do arquivo será " user-agent " ea próxima linha será "Bloquear :" - a primeira linha seleciona a população de robôs ea segunda linha mostra os diretórios que estão fora dos limites . Usando "; " para indicar uma quebra de linha, "user- id: * ; /abc /" são as duas declarações de linha que dirigem todos os robôs , para evitar o diretório abc . Para permitir SearchBot examinar tudo, mas proibir todos os outros robôs , o código seria " user- id: SearchBot ; desautorizar :; user- id: * ; não permitir : /" - * significa todos os robôs , /significa que todos os diretórios e uma espaço em branco significa que não há diretórios.