Publicado por Dalto Curvelano em 19 de July de 2009

Web Spiders Fáceis com Anemone

anemone O Anemone é um framework Ruby, multi-threaded e open source para construção de web spiders desenvolvido pelo Chris Kite, que é útil para coletar informações sobre websites. Com ele você pode escrever rotinas para gerar estatísticas interessantes sobre um site usando apenas sua URL.

Sua única dependência é o Nokogiri (um parser de HTML e XML). Além dele, você só precisa instalar a gem e começar a utlizá-lo. Com uma sintaxe simples ele permite, entre outras coisas, que você diga quais páginas deseja incluir (baseando-se em expressões regulares) ou definir callbacks.

Este exemplo tirado da homepage do Anemone imprime a URL de cada página em um site:

require 'anemone'

Anemone.crawl("http://www.example.com/") do |anemone|
  anemone.on_every_page do |page|
    puts page.url
  end
end

O diretório bin do projeto contém alguns exemplos mais avançados, incluindo uma contagem de páginas únicas em um site, o número de páginas em uma certa profundidade no site, ou a lista de urls encontradas. Tem também um exemplo que combina alguns dos exemplos acima, com a intenção de ser executado diariamente em um job do cron.

Você pode instalar o Anemone como uma gem ou, é claro,  pegar os fontes diretamente no Github. O código também tem uma boa documentação RDoc junto com os fontes ou online.

Deixe um Comentário