Sto ricevendo una risposta 302 da un server, mentre la demolizione di un sito web:come gestire reindirizzamento 302 nel Scrapy
2014-04-01 21:31:51+0200 [ahrefs-h] DEBUG: Redirecting (302) to <GET http://www.domain.com/Site_Abuse/DeadEnd.htm> from <GET http://domain.com/wps/showmodel.asp?Type=15&make=damc&a=664&b=51&c=0>
voglio inviare richiesta di GET gli URL invece di essere reindirizzato. Ora ho trovato questo middleware:
https://github.com/scrapy/scrapy/blob/master/scrapy/contrib/downloadermiddleware/redirect.py#L31
ho aggiunto questo codice di reindirizzamento al mio file middleware.py e ho aggiunto questo in settings.py:
DOWNLOADER_MIDDLEWARES = {
'street.middlewares.RandomUserAgentMiddleware': 400,
'street.middlewares.RedirectMiddleware': 100,
'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': None,
}
Ma io sono ancora reindirizzato. È tutto ciò che devo fare per far funzionare questo middleware? Mi manca qualcosa?
Probabilmente ti stanno reindirizzando all'infinito per impedirti di raschiare il sito. Almeno, questo è ciò che l'URL mi fa credere. – elbear
Sì, questo è ovviamente il loro intervento e il motivo per cui ho postato questa domanda. Non è un ciclo infinito, è un semplice reindirizzamento 302, l'url originale è ancora ricevuto come GET: da e questo è l'URL a cui voglio inviare la mia richiesta. Per quanto posso leggere è possibile e ho trovato uno script per questo, ma per qualche motivo le mie impostazioni non funzionano. –
mrki
Non volevo dire che è un ciclo infinito. Intendevo dire che ogni volta che fai una richiesta, sei reindirizzato, quindi si rifiutano di darti il contenuto. – elbear