Sto pianificando di utilizzare il webcrawling in un'applicazione a cui sto lavorando attualmente. Ho fatto delle ricerche su Nutch e ho fatto alcuni test preliminari per usarlo. Ma poi mi sono imbattuto in scrapy. Ma quando ho fatto alcune ricerche preliminari e ho esaminato la documentazione su scrapy, ho scoperto che può acquisire solo i dati strutturati (devi fornire il nome div da cui vuoi acquisire i dati). Il backend dell'applicazione che sto sviluppando si basa su Python e capisco che scrapy sia basato su Python e alcuni hanno suggerito che scrapy sia migliore di Nutch.Scrapy Vs Nutch
Il mio requisito è quello di acquisire i dati da più di 1000 pagine Web diverse e di eseguire ricerche per parole chiave pertinenti in tali informazioni. È in qualche modo che scrapy possa soddisfare lo stesso requisito.
1) Se sì, puoi fare un esempio su come può essere fatto?
2) O Nutch + Solr è più adatto per la mia esigenza
Il nome div non è un requisito per Scrapy, è possibile catturare tutto ciò che si desidera. –