durante la scansione sito web come https://www.netflix.com, ottenendo proibita da robots.txt: https://www.netflix.com/>ottenere vietato dalla robots.txt: Scrapy
ERRORE: nessuna risposta scaricato: https://www.netflix.com/
durante la scansione sito web come https://www.netflix.com, ottenendo proibita da robots.txt: https://www.netflix.com/>ottenere vietato dalla robots.txt: Scrapy
ERRORE: nessuna risposta scaricato: https://www.netflix.com/
Nella nuova versione (scrapy 1.1) lanciata il 2016-05-11, la ricerca per indicizzazione scarica prima robots.txt prima della scansione. Per cambiare questo cambiamento di comportamento nel vostro settings.py
con ROBOTSTXT_OBEY
ROBOTSTXT_OBEY=False
Ecco il release notes
Per prima cosa è necessario assicurarsi di modificare il proprio agente utente nella richiesta, altrimenti il programma utente predefinito verrà bloccato di sicuro.
robots.txt è solo un file di testo che i robot riguardo, non si può non voglia di fare qualsiasi cosa. Netflix ha probabilmente altri ostacoli per raschiare. – Selcuk