Publicado por Dalto Curvelano em 19 de July de 2009
Web Spiders Fáceis com Anemone
Clique aqui para adicionar ao del.icio.us | Nenhum comentário - Deixe o seu agora!
O Anemone é um framework Ruby, multi-threaded e open source para construção de web spiders desenvolvido pelo Chris Kite, que é útil para coletar informações sobre websites. Com ele você pode escrever rotinas para gerar estatísticas interessantes sobre um site usando apenas sua URL.
Sua única dependência é o Nokogiri (um parser de HTML e XML). Além dele, você só precisa instalar a gem e começar a utlizá-lo. Com uma sintaxe simples ele permite, entre outras coisas, que você diga quais páginas deseja incluir (baseando-se em expressões regulares) ou definir callbacks.
Este exemplo tirado da homepage do Anemone imprime a URL de cada página em um site:
require 'anemone'
Anemone.crawl("http://www.example.com/") do |anemone|
anemone.on_every_page do |page|
puts page.url
end
end
O diretório bin do projeto contém alguns exemplos mais avançados, incluindo uma contagem de páginas únicas em um site, o número de páginas em uma certa profundidade no site, ou a lista de urls encontradas. Tem também um exemplo que combina alguns dos exemplos acima, com a intenção de ser executado diariamente em um job do cron.
Você pode instalar o Anemone como uma gem ou, é claro, pegar os fontes diretamente no Github. O código também tem uma boa documentação RDoc junto com os fontes ou online.


