Ho un semplice web crawler per richiedere tutte le pagine dalla sitemap di un sito Web che ho bisogno di memorizzare nella cache e indicizzare. Dopo varie richieste, il sito Web inizia a pubblicare pagine vuote.Etichetta corretta per le richieste HTTP del crawler Web
Non c'è nulla nel loro robots.txt
eccetto il collegamento alla loro sitemap, quindi presumo di non aver infranto le loro "regole". Ho un'intestazione descrittiva che si collega esattamente a ciò che le mie intenzioni sono e le uniche pagine che sottopongo a scansione provengono dalla loro sitemap.
I codici di stato http sono tutti ancora OK, quindi posso solo immaginare che stanno evitando un gran numero di richieste http in un breve periodo di tempo. Cosa è considerato un ragionevole ritardo tra le richieste?
Ci sono altre considerazioni che ho trascurato che potrebbero potenzialmente causare questo problema?
cosa vuoi dire non c'è nulla nel loro robots.txt tranne che per un link alla loro sitemap? – freespace
non c'è nulla nel non consentire e il loro permesso è * – Adam