Come scoprire che il mio sito è stato raschiato?Come scoprire che il mio sito è stato raschiato?
Ho alcuni punti ...
- Network Larghezza di banda occupazione, causando problemi di throughput (corrisponde se proxy utilizzato).
- Quando si interrompe il motore di ricerca per le parole chiave, i nuovi riferimenti vengono visualizzati su altre risorse simili con lo stesso contenuto (corrisponde se il proxy è utilizzato).
- Richieste multiple dallo stesso IP.
- Frequenti richieste elevate da un singolo IP. (a proposito: che cos'è un tasso normale?)
- Agente utente senza testa o strano (corrisponde se il proxy è utilizzato).
- Richiesta con intervalli (uguali) prevedibili dallo stesso IP.
- Alcuni file di supporto non vengono mai richiesti, ad es. favicon.ico, vari file CSS e javascript (corrisponde se utilizzato come proxy).
- Sequenza richieste client. Ex. accesso client non pagine direttamente accessibili (corrisponde se il proxy è utilizzato).
Vuoi aggiungere altro alla lista?
Quali punti potrebbero adattarsi/corrispondere se un raschietto utilizza il proxy?
correlati: [? Può essere rilevato pagina raschiatura] (http://stackoverflow.com/q/6936453) e [Il modo per rilevare web scraping] (http: // StackOverflow.com/q/5.372.115). Fondamentalmente è abbastanza difficile da determinare, dal momento che usano approcci diversi per confondere. – fedorqui
Per esperienza personale, la frequenza con cui un singolo IP visita il tuo sito è molto ampia in base al tuo sito web. Ad esempio, una volta ho creato un sito Web che avrei dovuto visitare in media una volta al giorno e visualizzare solo alcune pagine (poiché le informazioni venivano pubblicate solo una volta al giorno). Altri siti Web (ad esempio forum o aggiornamenti dinamici di siti Web con molte informazioni pubblicate di frequente) potrebbero prevedere un assortimento molto più casuale di visite. O se il tuo sito web è coerente, sarebbe molto raro - forse 1-2 al giorno, quindi cade. – Sh4d0wsPlyr
Puoi spiegare perché vuoi rilevare i raschietti? La maggior parte dei siti è a favore - raschiare è esattamente come si entra nei motori di ricerca. Se la tua intenzione è di bloccarla, hai provato il protocollo di esclusione dei robot? – halfer