2009-08-25 11 views
8

Sto eseguendo un sito con molto contenuto, ma poco traffico, su un server dedicato medio-di-strada.Come impedire a Googlebot di sottrarre il sito?

Occasionalmente, Googlebot ci stamperà, causando l'esaurimento della memoria di Apache e l'arresto anomalo del server.

Come posso evitare questo?

+3

Questo potrebbe non essere affatto Google. Identificare l'indirizzo (i) IP dei bot incriminati e fare la ricerca inversa. Controlla se si risolve nel dominio di Google. Ho visto bot molto aggressivi che hanno utilizzato Googlebot user-agent. – DmitryK

risposta

7
  • registro a strumenti per i webmaster di Google, verifica il tuo sito e Google acceleratore bot giù
  • inviare una sitemap
  • leggere il google guildelines: (If-Modified-Since intestazione HTTP)
  • uso robot.txt per limitare l'accesso da bot a alcune parti del sito web
  • crea uno script che cambia il robot.txt ogni $ [periodo di tempo] per assicurarti che il bot non sia mai in grado di eseguire la scansione di troppe pagine contemporaneamente assicurandosi che sia possibile strisciare tutto il contenuto complessivo
0

È possibile configurare la velocità di scansione negli strumenti per webmaster di Google.

1

Registra il tuo sito utilizzando gli Strumenti per i Webmaster di Google, che ti consentono di impostare la frequenza e il numero di richieste al secondo che googlebot dovrebbe provare a indicizzare il tuo sito. Gli Strumenti per i Webmaster di Google possono anche aiutarti a creare un file robots.txt per ridurre il carico sul tuo sito

7

Puoi impostare il modo in cui il tuo sito viene scansionato utilizzando gli strumenti per webmaster di Google. In particolare, dai un'occhiata a questa pagina: Changing Google's crawl rate

Puoi anche limitare le pagine cercate da Google Bot utilizzando un file robots.txt. C'è un'impostazione disponibile per crawl-delay, ma sembra che sia not honored da google.

1

Nota che puoi impostare la velocità di scansione tramite Strumenti per i Webmaster di Google (in Impostazioni sito), ma rispettano solo l'impostazione per sei mesi! Quindi devi effettuare il login ogni sei mesi per ripristinarlo.

Questa impostazione è stata modificata in Google. L'impostazione viene salvata solo per 90 giorni ora (3 mesi, non 6).