Nutch è il meglio che puoi fare quando si tratta di un crawler gratuito. È costruito fuori dal concetto di Lucene (in scala aziendale) ed è supportato dal back-end Hadoop utilizzando MapReduce (simile a Google) per l'esecuzione di query su larga scala. Grandi prodotti! Attualmente sto leggendo tutto su Hadoop nel nuovo (non ancora rilasciato) Hadoop in Action da manning. Se segui questa strada ti suggerisco di entrare nel loro team di revisione tecnica per ottenere una copia iniziale di questo titolo!
Questi sono tutti basati su Java. Se sei un ragazzo .net (come me !!) allora potresti essere più interessato a Lucene.NET, Nutch.NET, e a Hadoop.NET che sono tutte classe per classe e api dalle porte api a C#.
fonte
2009-06-24 18:00:01
http://stackoverflow.com/questions/176820/whats-a-good-web-crawler-tool –
@LFSR Consulting. Sono per scopi diversi ... – Zanoni