Qualcuno conosce un buon web crawler open source estendibile?

Il crawler ha bisogno di avere un'architettura estensibile per consentire la modifica del processo interno, come l'implementazione di nuove fasi (pre-parser, parser, ecc ...)Qualcuno conosce un buon web crawler open source estendibile?

ho trovato il progetto Heritrix (http://crawler.archive.org/).

Ma ci sono altri bei progetti come questo?

fonte

2009-06-24 Zanoni

http://stackoverflow.com/questions/176820/whats-a-good-web-crawler-tool –

@LFSR Consulting. Sono per scopi diversi ... – Zanoni

Nutch è il meglio che puoi fare quando si tratta di un crawler gratuito. È costruito fuori dal concetto di Lucene (in scala aziendale) ed è supportato dal back-end Hadoop utilizzando MapReduce (simile a Google) per l'esecuzione di query su larga scala. Grandi prodotti! Attualmente sto leggendo tutto su Hadoop nel nuovo (non ancora rilasciato) Hadoop in Action da manning. Se segui questa strada ti suggerisco di entrare nel loro team di revisione tecnica per ottenere una copia iniziale di questo titolo!

Questi sono tutti basati su Java. Se sei un ragazzo .net (come me !!) allora potresti essere più interessato a Lucene.NET, Nutch.NET, e a Hadoop.NET che sono tutte classe per classe e api dalle porte api a C#.

fonte

2009-06-24 18:00:01

+1 per Nutch e Hadoop, puoi anche guardare solr se stai cercando una soluzione distribuita e scalabile. –

Dal suo aspetto, Nutch.NET è completamente inesistente e non riuscivo nemmeno a trovare un modo per scaricarlo. –

Lo stesso vale per Hadoop.NET, non c'è un singolo file da scaricare –

Ho scoperto recentemente uno chiamato - Nutch.

fonte

2009-06-24 17:32:03

Se non sei legato alla piattaforma, ho avuto esperienze molto positive con Nutch in passato.

È scritto in Java e va di pari passo con l'indicizzatore Lucene.

fonte

2009-06-24 17:32:56

Si potrebbe anche voler provare Scrapy http://scrapy.org/

E 'davvero facile per specificare ed eseguire le crawler.

fonte

2011-02-11 09:59:49 fccoelho

Abot è un buon web-crawler estendibile. Ogni parte dell'architettura è collegabile e ti dà il controllo completo sul suo comportamento. Il suo open source, gratuito per uso commerciale e personale, scritto in C#.

https://github.com/sjdirect/abot

fonte

2012-11-28 16:40:39 sjdirect

Qualcuno conosce un buon web crawler open source estendibile?

risposta

Problemi correlati