2009-06-24 6 views
14

Il crawler ha bisogno di avere un'architettura estensibile per consentire la modifica del processo interno, come l'implementazione di nuove fasi (pre-parser, parser, ecc ...)Qualcuno conosce un buon web crawler open source estendibile?

ho trovato il progetto Heritrix (http://crawler.archive.org/).

Ma ci sono altri bei progetti come questo?

+0

http://stackoverflow.com/questions/176820/whats-a-good-web-crawler-tool –

+0

@LFSR Consulting. Sono per scopi diversi ... – Zanoni

risposta

14

Nutch è il meglio che puoi fare quando si tratta di un crawler gratuito. È costruito fuori dal concetto di Lucene (in scala aziendale) ed è supportato dal back-end Hadoop utilizzando MapReduce (simile a Google) per l'esecuzione di query su larga scala. Grandi prodotti! Attualmente sto leggendo tutto su Hadoop nel nuovo (non ancora rilasciato) Hadoop in Action da manning. Se segui questa strada ti suggerisco di entrare nel loro team di revisione tecnica per ottenere una copia iniziale di questo titolo!

Questi sono tutti basati su Java. Se sei un ragazzo .net (come me !!) allora potresti essere più interessato a Lucene.NET, Nutch.NET, e a Hadoop.NET che sono tutte classe per classe e api dalle porte api a C#.

+0

+1 per Nutch e Hadoop, puoi anche guardare solr se stai cercando una soluzione distribuita e scalabile. –

+4

Dal suo aspetto, Nutch.NET è completamente inesistente e non riuscivo nemmeno a trovare un modo per scaricarlo. –

+0

Lo stesso vale per Hadoop.NET, non c'è un singolo file da scaricare –

0

Ho scoperto recentemente uno chiamato - Nutch.

0

Se non sei legato alla piattaforma, ho avuto esperienze molto positive con Nutch in passato.

È scritto in Java e va di pari passo con l'indicizzatore Lucene.

1

Abot è un buon web-crawler estendibile. Ogni parte dell'architettura è collegabile e ti dà il controllo completo sul suo comportamento. Il suo open source, gratuito per uso commerciale e personale, scritto in C#.

https://github.com/sjdirect/abot