Non riesco a eseguire la scansione di tutto il sito Web, Scrapy si limita a strisciare in superficie, voglio strisciare più a fondo. Stato googling per le ultime 5-6 ore e nessun aiuto. Il mio codice qui sotto:Scrapy - Scansiona tutto il sito web
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.selector import HtmlXPathSelector
from scrapy.item import Item
from scrapy.spider import BaseSpider
from scrapy import log
class ExampleSpider(CrawlSpider):
name = "example.com"
allowed_domains = ["example.com"]
start_urls = ["http://www.example.com/"]
rules = [Rule(SgmlLinkExtractor(allow=()),
follow=True),
Rule(SgmlLinkExtractor(allow=()), callback='parse_item')
]
def parse_item(self,response):
self.log('A response from %s just arrived!' % response.url)
Si prega di aiutare !!!!
Grazie, Abhiram
Ho appena provato il tuo codice contro StackOverflow - il mio IP è stato bannato. Funziona sicuramente! :) – alecxe
@Alexander - Sembra incoraggiante per me eseguire il debug di più :) :) ... Mi dispiace per l'IP ban mate! –
Stai davvero cercando di eseguire la scansione di example.com? Sai che non è un vero sito web. –