2012-05-26 6 views
7

So che questa domanda è stata posta molte volte ma voglio essere più specifica.come limitare l'indicizzazione del sito

Ho un dominio di sviluppo e ho spostato il sito in una sottocartella. Diciamo da:

http://www.example.com/ 

A:

http://www.example.com/backup 

Quindi voglio la sottocartella di non essere indicizzati dai motori di ricerca a tutti. Ho inserito robots.txt con i seguenti contenuti nella sottocartella (posso inserirlo in una sottocartella o deve essere sempre alla radice, perché voglio che il contenuto della radice sia visibile ai motori di ricerca):

User-agent: * 
Disallow:/

Forse ho bisogno di sostituirlo e mettere nella root il seguente:

User-agent: * 
Disallow: /backup 

l'altra cosa è, ho letto da qualche parte che alcuni robot non rispettano il file robots.txt così sarebbe solo mettendo un file .htaccess nella cartella/backup fa il lavoro?

Order deny,allow 
Deny from all 

Qualche idea?

risposta

12

Ciò eviterebbe che directory venga indicizzata:

User-agent: * 
Disallow: /backup/ 

Inoltre, il file robots.txt deve essere inserito nella directory principale del tuo dominio, quindi in questo caso, il file potrebbe essere collocato dove è possibile accedi al tuo browser andando a http://example.com/robots.txt

Per inciso, potresti prendere in considerazione la possibilità di configurare un sottodominio per il tuo sito di sviluppo, ad esempio http://dev.example.com. Ciò consentirebbe di separare completamente le informazioni di sviluppo dall'ambiente di produzione e garantirebbe inoltre una corrispondenza più ravvicinata tra gli ambienti.

Ad esempio, qualsiasi percorso assoluto verso file JavaScript, CSS, immagini o altre risorse potrebbe non funzionare allo stesso modo da dev in produzione, e questo potrebbe causare alcuni problemi lungo la strada.

Per ulteriori informazioni su come configurare questo file, vedere il sito robotstxt.org. In bocca al lupo!

Come ultima e definitiva nota Google Webmaster Tools ha una sezione in cui è possibile see what is blocked by the robots.txt file:

Per sapere quali URL di Google è stato bloccato da strisciare, visita la pagina URL bloccati della sezione Salute del Webmaster Tools.

Consiglio vivamente di utilizzare questo strumento, poiché un file robots.txt configurato in modo errato potrebbe avere un impatto significativo sulle prestazioni del sito Web.

+0

+1 per spiegazione dettagliata, grazie anche per avermelo ricordato :) – Sarfraz

+1

Nessun problema! Grazie :) – jmort253

+0

Ciao grazie per il commento e ricordando la maggior parte delle cose. Una domanda però, ho bisogno di mettere un non consentire:/al sottodominio dev in modo che i file non sono indicizzati? Lo voglio solo sulla produzione ... anche per quanto riguarda il contenuto duplicato da quel sottodominio dev? –