2011-10-16 26 views
5

Possiamo dire ai robot di eseguire la scansione o di non eseguire la scansione del nostro sito Web in robot.txt. D'altra parte, possiamo controllare la velocità di scansione nei webmaster di Google (quanto bot di Google esegue la scansione del sito Web). Mi chiedo se sia possibile limitare le attività del crawler da robots.txtÈ possibile controllare la velocità di scansione da robots.txt?

Voglio dire accettare i robot per eseguire la scansione delle pagine ma limitare la loro presenza in base al tempo o alle pagine o alle dimensioni!

risposta

2

Non che io abbia trovato. Robots.txt è un posto dove mettere directory o file che vorresti fossero i robot da includere o escludere. Se c'era un modo non è ancora standard. Ricorda che chiunque crei i robot sceglie se rispettare o meno robots.txt, non tutti i bot ("bot difettosi") rispettano questo file.

Attualmente se ci fossero impostazioni per ridurre la velocità di scansione, tempo sul sito, ecc. Sarebbe su base bot per bot e non standardizzato in valori robots.txt.

Maggiori informazioni: http://www.robotstxt.org/robotstxt.html

1

No, il file robots.txt può specificare solo le pagine che non si desidera essere indicizzato e quello che gli agenti utente Tali regole si applicano anche. Non puoi fare nient'altro con il file.

Alcuni siti Web utilizzano le direttive Allow e Sitemap, ma non sembrano essere direttive valide in base al sito Web ufficiale, anche se alcuni crawler potrebbero rispettarli.

5

C'è una direttiva che è possibile utilizzare in robots.txt, è "Ritardo scansione".

Esempio: Crawl-delay: 5

robot significato dovrebbe essere strisciando non più di una pagina per 5 secondi. Ma questa direttiva non è ufficialmente supportata da robots.txt, per quanto ne so.

Inoltre ci sono alcuni robot che in realtà non contengono affatto il file robots.txt. Quindi, anche se non hai consentito l'accesso ad alcune pagine, potrebbero comunque essere scansionati da alcuni robot, ovviamente non quelli più grandi come Google.

Ad esempio, Baidu potrebbe ignorare il file robots.txt, ma non è sicuro.

Non ho una fonte ufficiale per queste informazioni, quindi puoi semplicemente cercarlo su Google.

+1

ultima volta che ho sentito, Googlebot ignora Crawl-delay, quindi questo non sarà effettivamente aiutare per Google. Sarà per alcuni altri robot, però. Senza informazioni su quali robot funzioni, questa risposta è piuttosto incompleta. – derobert

+2

Ulteriori informazioni su "Ritardo scansione" vedi questa domanda SO: http://stackoverflow.com/questions/17377835/robots-txt-what-is-the-proper-format-for-a-crawl-delay-for-multiple -user-agent –

+1

Il ritardo di scansione non fa parte dello standard, ma alcuni robot lo rispettano: https://en.wikipedia.org/wiki/Robots_exclusion_standard#Crawl-delay_directive – nmit026

0

So che questa è una domanda molto vecchio, ma ho voluto aggiungere che secondo la documentazione di Google ecco la risposta ufficiale:

È possibile generalmente regolare l'impostazione velocità di scansione nel tuo Google Strumenti per i webmaster account.

per: https://developers.google.com/webmasters/control-crawl-index/docs/faq#h04

Dall'interno i webmaster-tools è possibile attenersi alla seguente procedura:

  1. Nella pagina Search Console iniziale, fare clic sito che si desidera.

  2. Fare clic sull'icona dell'ingranaggio, quindi fare clic su Impostazioni sito.

  3. Nella sezione Velocità di scansione, selezionare l'opzione desiderata e quindi limitare la velocità di scansione come desiderato.

La nuova velocità di scansione sarà valida per 90 giorni.

ref: google support question

+0

ho appena impostato la velocità di scansione e dice che è valida per un mese, non 90 giorni – Sharky

+0

@Sharky vuoi dire che Google non mantiene il loro documenti aggiornati? :-) – john