Ho raschiato siti Web prima di utilizzare la stessa tecnica. Ma con questo sito sembra non funzionare.Emissione di scraping con Beautiful Soup
import urllib2
from BeautifulSoup import BeautifulSoup
url = "http://www.weatheronline.co.uk/weather/maps/current?LANG=en&DATE=1354104000&CONT=euro&LAND=UK&KEY=UK&SORT=1&INT=06&TYP=sonne&ART=tabelle&RUBRIK=akt&R=310&CEL=C"
page=urllib2.urlopen(url).read()
soup = BeautifulSoup(page)
print soup
In uscita dovrebbe essere il contenuto della pagina web, ma invece io sono solo ottenere questo:
GIF89a (segue anche alcuni simboli non riesco a copiare qui)
Tutte le idee di qual è il problema e come dovrei procedere.
@Abhijit Nota che non appena capiscono che stai raschiando il sito, potrebbero semplicemente modificare il loro codice HTML che interrompe lo scraping. Oppure blocca il tuo indirizzo IP. O qualsiasi altro cambiamento. Non vogliono che tu scriva il loro sito. Forse dovresti rispettarlo. –
@Abhijit: Risposta = opener.open (url) restituisce errori: – John
Traceback (chiamata più recente scorso): file "", linea 1, in file "C: \ Python27 \ lib \ urllib2.py", la linea 406, in aperta risposta = meth (req, risposta) file "C: \ Python27 \ lib \ urllib2.py", la linea 519, in http_response 'http', richiesta, risposta, il codice, MSG, HDRS) file "C: \ Python27 \ lib \ urllib2.py", la linea 444, per errore di ritorno self._call_chain (* args) file "C: \ Python27 \ lib \ urllib2.py", la linea 527, in http_error_default raise HTTPError (req.get_full_url(), code, msg, hdrs, fp) HTTPError: errore HTTP 4 03: Proibito –
John