Mecanismos de busca, como Google ou Yahoo!, puxam páginas da Web para seus resultados de busca usando bots da Web (também chamados de spiders ou crawlers), que são programas que varrem a Internet e indexam sites em um banco de dados. Os bots da Web podem ser criados usando a maioria das linguagens de programação, incluindo C, Perl, Python e PHP, todas as quais permitem que os engenheiros de software escrevam scripts que executam tarefas processuais, como varredura e indexação da Web.
Etapa 1
Abra um aplicativo de edição de texto simples, como o Bloco de Notas, que está incluído no Microsoft Windows, ou o TextEdit do Mac OS X, onde você criará um aplicativo Python Web bot.
Etapa 2
Inicie o script Python incluindo as seguintes linhas de código e substituindo a URL de exemplo pela URL do site que você deseja verificar e o nome do banco de dados de exemplo pelo banco de dados que armazenará os resultados:
import urllib2, re, string enter_point ='http://www.exampleurl.com' db_name ='example.sql'
Etapa 3
Inclua as seguintes linhas de código para definir a sequência de operações que o bot da Web seguirá:
def uniq(seq):set ={} map(set.
setitem , seq, []) return set.keys()
Etapa 4
Obtenha as URLs na estrutura do site usando as seguintes linhas de código:
def geturls(url):items =[] request =urllib2.Request(url) request.add.header('User', 'Bot_name;)') content =urllib2.urlopen(request).read() items =re. findall('href="http://.?"', content) urls =[] return urls
Etapa 5
Defina o banco de dados que o bot da Web usará e especifique quais informações ele deve armazenar para concluir a criação do bot da Web:
db =open(db_name, 'a') allurls =uniq(geturls(enter_point))
Etapa 6
Salve o documento de texto e carregue-o em um servidor ou computador com conexão à Internet, onde você possa executar o script e começar a digitalizar as páginas da web.