Solo provando a cercare di far funzionare un ragno di base. So che questo è probabilmente qualcosa che mi manca ma ho provato tutto quello che riesco a pensare.Scrapy HtmlXPathSelector
L'errore che ottengo è:
line 11, in JustASpider
sites = hxs.select('//title/text()')
NameError: name 'hxs' is not defined
Il mio codice è molto semplice in questo momento, ma io ancora non riesco a trovare dove sto andando male. Grazie per qualsiasi aiuto!
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class JustASpider(BaseSpider):
name = "google.com"
start_urls = ["http://www.google.com/search?hl=en&q=search"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
sites = hxs.select('//title/text()')
for site in sites:
print site.extract()
SPIDER = JustASpider()
Come gestisci il tuo ragno? "scrapy crawl" google.com "'? – Leo
Non c'è niente di sbagliato nel tuo codice (oltre a non dover più dichiarare lo SPIDER), funziona per me. –
@Leo Ecco come l'ho eseguito. –