2015-07-09 23 views
6

Come scoprire che il mio sito è stato raschiato?Come scoprire che il mio sito è stato raschiato?

Ho alcuni punti ...

  1. Network Larghezza di banda occupazione, causando problemi di throughput (corrisponde se proxy utilizzato).
  2. Quando si interrompe il motore di ricerca per le parole chiave, i nuovi riferimenti vengono visualizzati su altre risorse simili con lo stesso contenuto (corrisponde se il proxy è utilizzato).
  3. Richieste multiple dallo stesso IP.
  4. Frequenti richieste elevate da un singolo IP. (a proposito: che cos'è un tasso normale?)
  5. Agente utente senza testa o strano (corrisponde se il proxy è utilizzato).
  6. Richiesta con intervalli (uguali) prevedibili dallo stesso IP.
  7. Alcuni file di supporto non vengono mai richiesti, ad es. favicon.ico, vari file CSS e javascript (corrisponde se utilizzato come proxy).
  8. Sequenza richieste client. Ex. accesso client non pagine direttamente accessibili (corrisponde se il proxy è utilizzato).

Vuoi aggiungere altro alla lista?

Quali punti potrebbero adattarsi/corrispondere se un raschietto utilizza il proxy?

+1

correlati: [? Può essere rilevato pagina raschiatura] (http://stackoverflow.com/q/6936453) e [Il modo per rilevare web scraping] (http: // StackOverflow.com/q/5.372.115). Fondamentalmente è abbastanza difficile da determinare, dal momento che usano approcci diversi per confondere. – fedorqui

+1

Per esperienza personale, la frequenza con cui un singolo IP visita il tuo sito è molto ampia in base al tuo sito web. Ad esempio, una volta ho creato un sito Web che avrei dovuto visitare in media una volta al giorno e visualizzare solo alcune pagine (poiché le informazioni venivano pubblicate solo una volta al giorno). Altri siti Web (ad esempio forum o aggiornamenti dinamici di siti Web con molte informazioni pubblicate di frequente) potrebbero prevedere un assortimento molto più casuale di visite. O se il tuo sito web è coerente, sarebbe molto raro - forse 1-2 al giorno, quindi cade. – Sh4d0wsPlyr

+0

Puoi spiegare perché vuoi rilevare i raschietti? La maggior parte dei siti è a favore - raschiare è esattamente come si entra nei motori di ricerca. Se la tua intenzione è di bloccarla, hai provato il protocollo di esclusione dei robot? – halfer

risposta

1

Vorrei anche aggiungere l'analisi di quando vengono fatte le richieste delle stesse persone. Ad esempio, se lo stesso indirizzo IP richiede gli stessi dati alla stessa ora ogni giorno, è probabile che il processo sia su una pianificazione automatica. Quindi è probabile che stia graffiando ...

Possibile analisi aggiuntiva del numero di pagine su cui ogni sessione utente ha avuto un impatto. Ad esempio, se un determinato utente in un particolare giorno ha sfogliato tutte le pagine del tuo sito e ritieni che ciò sia insolito, forse è un altro indicatore.

Sembra che tu abbia bisogno di una serie di indicatori e hai bisogno di segnarli e combinare il punteggio per mostrare chi è più probabile che scruti.

+0

grazie per "analisi di quando vengono fatte le richieste dallo stesso cliente" e per un suggerimento di "segnare gli indicatori per calcolare il valore finale". –

2

Come prima nota; considerare se vale la pena fornire un'API per i robot per il futuro. Se sei sottoposto a scansione da un'altra società/ecc., Se si tratta di informazioni che vuoi fornire loro comunque rende il tuo sito web prezioso per loro. La creazione di un'API ridurrebbe sostanzialmente il carico del tuo server e ti darà una chiarezza del 100% su chi ti segue.

In secondo luogo, provenendo da esperienze personali (ho creato web-crawl per un po 'di tempo), in genere si può dire immediatamente rintracciando ciò che il browser è stato che ha avuto accesso al tuo sito web. Se stanno utilizzando uno di quelli automatici o uno fuori da un linguaggio di sviluppo, sarà diverso in modo univoco dal tuo utente medio. Per non parlare del monitoraggio del file di registro e dell'aggiornamento del tuo .htaccess con il bando (se è quello che stai cercando di fare).

Di solito è poi così facile da individuare. Ripetuta, apertura molto consistente delle pagine.

Dai un'occhiata a questo altro post per ulteriori informazioni su come potresti voler trattare con loro, anche per qualche idea su come identificarli.

How to block bad unidentified bots crawling my website?

+0

grazie per "rendere API" per risparmiare larghezza di banda e "apertura coerente delle pagine" –