ottenere vietato dalla robots.txt: Scrapy

durante la scansione sito web come https://www.netflix.com, ottenendo proibita da robots.txt: https://www.netflix.com/>ottenere vietato dalla robots.txt: Scrapy

ERRORE: nessuna risposta scaricato: https://www.netflix.com/

fonte

2016-05-17 deepak kumar

robots.txt è solo un file di testo che i robot riguardo, non si può non voglia di fare qualsiasi cosa. Netflix ha probabilmente altri ostacoli per raschiare. – Selcuk

Nella nuova versione (scrapy 1.1) lanciata il 2016-05-11, la ricerca per indicizzazione scarica prima robots.txt prima della scansione. Per cambiare questo cambiamento di comportamento nel vostro settings.py con ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

Ecco il release notes

fonte

2016-05-17 14:24:08

Per prima cosa è necessario assicurarsi di modificare il proprio agente utente nella richiesta, altrimenti il programma utente predefinito verrà bloccato di sicuro.

fonte

2016-05-17 13:23:52

ottenere vietato dalla robots.txt: Scrapy

risposta

Problemi correlati