Solo provando a cercare di far funzionare un ragno di base. So che questo è probabilmente qualcosa che mi manca ma ho provato tutto quello che riesco a pensare.Scrapy HtmlXPathSelector

L'errore che ottengo è:

line 11, in JustASpider 
    sites = hxs.select('//title/text()') 
NameError: name 'hxs' is not defined

Il mio codice è molto semplice in questo momento, ma io ancora non riesco a trovare dove sto andando male. Grazie per qualsiasi aiuto!

from scrapy.spider import BaseSpider 
from scrapy.selector import HtmlXPathSelector 

class JustASpider(BaseSpider): 
    name = "google.com" 
    start_urls = ["http://www.google.com/search?hl=en&q=search"] 


    def parse(self, response): 
     hxs = HtmlXPathSelector(response) 
     sites = hxs.select('//title/text()') 
     for site in sites: 
      print site.extract() 


SPIDER = JustASpider()

fonte

2012-09-03 Keanan Koppenhaver

Come gestisci il tuo ragno? "scrapy crawl" google.com "'? – Leo

Non c'è niente di sbagliato nel tuo codice (oltre a non dover più dichiarare lo SPIDER), funziona per me. –

@Leo Ecco come l'ho eseguito. –

Ho rimosso la chiamata di SPIDER alla fine e rimosso il ciclo for. C'era solo un tag title (come ci si aspetterebbe) e sembra che stia buttando fuori dal giro. Il codice che ho a lavorare è la seguente:

from scrapy.spider import BaseSpider 
from scrapy.selector import HtmlXPathSelector 

class JustASpider(BaseSpider): 
    name = "google.com" 
    start_urls = ["http://www.google.com/search?hl=en&q=search"] 


    def parse(self, response): 
     hxs = HtmlXPathSelector(response) 
     titles = hxs.select('//title/text()') 
     final = titles.extract()

fonte

2012-09-10 16:27:07

il tuo codice funziona, ma è meglio usare un nome semplice per gli spider, come "google" o "googleSpider" invece di "google.com" – parik

Assicurati di utilizzare il codice che ci stai mostrando.

Provare a eliminare i file *.pyc nel progetto.

fonte

2012-09-05 04:47:16 warvariuc

Dopo aver eliminato tutti i file pyc nella cartella, sto ancora ricevendo lo stesso errore. Se mi mancasse una dipendenza, ricevo un errore di importazione? –

controllare i rientri nel codice. magari mischi le schede con gli spazi? – warvariuc

Ho avuto un problema simile, NameError: name 'hxs' is not defined, e il problema relativo agli spazi e le schede: l'IDE utilizza spazi invece di tabulazioni, si dovrebbe check it out.

fonte

2013-01-23 23:22:51

questo funziona per me:

Salvare il file come test.py
Utilizzare il comando scrapy runspider <filename.py>

Ad esempio:

scrapy runspider test.py

fonte

2013-08-19 15:01:00

codice sembra corretto.

Nelle ultime versioni di Scrapy
HtmlXPathSelector è obsoleto. Usa Selector:

hxs = Selector(response) 
sites = hxs.xpath('//title/text()')

fonte

2014-02-14 05:14:58 dimka665

questa è solo una demo, ma funziona. bisogno di essere personalizzato offcourse. !

/usr/bin/env python

da scrapy.spider importazione BaseSpider da scrapy.selector importazione HtmlXPathSelector

classe DmozSpider (BaseSpider): name = "dmoz" allowed_domains = [" dmoz.org "] = [ start_urls " http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ]

def parse(self, response): 
    hxs = HtmlXPathSelector(response) 
    sites = hxs.select('//ul/li') 
    for site in sites: 
     title = site.select('a/text()').extract() 
     link = site.select('a/@href').extract() 
     desc = site.select('text()').extract() 
     print title, link, desc

fonte

2014-06-21 19:20:27 user3672836

Si dovrebbe cambiare

from scrapy.selector import HtmlXPathSelector

from scrapy.selector import Selector

E utilizzare hxs=Selector(response) invece.

fonte

2015-04-26 05:38:32 neal

Il codice sembra una versione piuttosto vecchia. Mi consiglia di utilizzare questi codici al posto

from scrapy.spider import Spider 
 
from scrapy.selector import Selector 
 

 
class JustASpider(Spider): 
 
    name = "googlespider" 
 
    allowed_domains=["google.com"] 
 
    start_urls = ["http://www.google.com/search?hl=en&q=search"] 
 

 

 
    def parse(self, response): 
 
     sel = Selector(response) 
 
     sites = sel.xpath('//title/text()').extract() 
 
     print sites 
 
     #for site in sites: (I dont know why you want to loop for extracting the text in the title element) 
 
      #print site.extract()

speriamo vi sia utile e here è un buon esempio da seguire.

fonte

2015-09-04 06:28:46

Uso Scrapy con BeautifulSoup4.0. Per me, Soup è facile da leggere e capire. Questa è un'opzione se non si deve usare HtmlXPathSelector. Spero che questo ti aiuti!

import scrapy 
from bs4 import BeautifulSoup 
import Item 

def parse(self, response): 

    soup = BeautifulSoup(response.body,'html.parser') 
    print 'Current url: %s' % response.url 
    item = Item() 
    for link in soup.find_all('a'): 
     if link.get('href') is not None: 
      url = response.urljoin(link.get('href')) 
      item['url'] = url 
      yield scrapy.Request(url,callback=self.parse) 
      yield item

fonte

2016-10-11 19:13:57 sarc360

Scrapy HtmlXPathSelector

risposta

/usr/bin/env python

Problemi correlati