Il mio file items.py va in questo modo:Come usare re() per estrarre i dati dalla variabile javascript usando scrapy?
from scrapy.item import Item, Field
class SpiItem(Item):
title = Field()
lat = Field()
lng = Field()
add = Field()
e il ragno è:
import scrapy
import re
from spi.items import SpiItem
class HdfcSpider(scrapy.Spider):
name = "hdfc"
allowed_domains = ["hdfc.com"]
start_urls = ["http://hdfc.com/branch-locator"]
def parse(self,response):
addresses = response.xpath('//script')
for sel in addresses:
item = SpiItem()
item['title'] = sel.xpath('//script[@type="text/javascript"][1]').re('(?<="title":).+(?=")')
item['lat'] = sel.xpath('//script[@type="text/javascript"][1]').re('(?<="latitude":).+(?=")')
item['lng'] = sel.xpath('//script[@type="text/javascript"][1]').re('(?<="longitude":).+(?=")')
item['add'] = sel.xpath('//script[@type="text/javascript"][1]').re('(?<="html":).+(?=")')
yield item
Il codice javascript intera, sulla sorgente della pagina di visualizzazione, è scritto dentro: //html/body/table/tbody/tr[348]/td[2]
.
Perché il mio codice non funziona? Voglio estrarre solo i quattro campi menzionati nel file degli articoli.
Si prega di risolvere il tuo rientro. – IanAuld
Rientro completato. – Aditya