Ho una domanda in due parti.Essendo un buon cittadino e web-scraping
In primo luogo, sto scrivendo un web-raschietto basato sullo spider CrawlSpider in Scrapy. Sto mirando a raschiare un sito Web che ha migliaia di record (possibili in centinaia di migliaia). Questi record sono sepolti 2-3 livelli in basso dalla pagina iniziale. Quindi in pratica ho l'avvio spider su una determinata pagina, eseguo la scansione finché non trova un tipo specifico di record e quindi analizzo l'html. Quello che mi chiedo sono quali metodi esistono per impedire al mio spider di sovraccaricare il sito? C'è forse un modo per fare le cose in modo incrementale o mettere una pausa tra le diverse richieste?
Secondo, e relativo, esiste un metodo con Scrapy per testare un crawler senza porre eccessivo stress su un sito? So che puoi uccidere il programma mentre è in esecuzione, ma c'è un modo per fermare lo script dopo aver colpito qualcosa come la prima pagina che ha le informazioni che voglio analizzare?
Qualsiasi consiglio o risorsa sarebbe molto apprezzato.
Impressionante. Grazie mille. – user1074057