Come impostare un robot.txt che consente solo la pagina predefinita di un sito

Dire che ho un sito su http://example.com. Mi piacerebbe molto che i bot potessero vedere la home page, ma ogni altra pagina deve essere bloccata in quanto inutile per lo spider. In altre paroleCome impostare un robot.txt che consente solo la pagina predefinita di un sito

http://example.com & http://example.com/ dovrebbero essere autorizzati, ma http://example.com/anything e http://example.com/someendpoint.aspx devono essere bloccate.

Inoltre sarebbe bello se mi posso permettere alcune stringhe di query al passthrough alla home page: http://example.com?okparam=true

ma non http://example.com?anythingbutokparam=true

fonte

2008-09-04 Boaz

Così, dopo alcune ricerche, qui è quello che ho trovato - una soluzione accettabile da parte dei principali provider di ricerca: google, yahoo & msn (potrei su trovare un validatore qui):

User-Agent: * 
Disallow: /* 
Allow: /?okparam= 
Allow: /$

Il trucco sta usando il $ per segnare la fine dell'URL.

fonte

2008-09-04 20:34:05 Boaz

robots.txt base:

Disallow: /subdir/

I non pensare di poter creare un'espressione che dice "tutto tranne la radice", devi compilare tutte le sottodirectory.

La limitazione della stringa di query non è inoltre possibile da robots.txt. Devi farlo nel codice di background (la parte di elaborazione), o forse con le regole di riscrittura del server.

fonte

2008-09-04 09:58:27 Biri

Disallow: * 
Allow: index.ext

Se ricordo correttamente, la seconda clausola dovrebbe ignorare la prima.

fonte

2008-09-04 10:27:43 UnkwnTech

Google's Webmaster Tools il report che non autorizza ha sempre la precedenza su allow, quindi non esiste un modo semplice per farlo in un file robots.txt.

È possibile eseguire questa operazione inserendo un tag noindex,nofollowMETA nell'HTML ogni pagina tranne la pagina iniziale.

fonte

2008-09-04 14:12:47 ceejayoz

Per quanto ne so, non tutti i crawler supportano il tag Allow. Una possibile soluzione potrebbe essere quella di mettere tutto tranne la home page in un'altra cartella e disabilitare quella cartella.

fonte

2008-09-04 14:18:33 hakan

Come impostare un robot.txt che consente solo la pagina predefinita di un sito

risposta

Problemi correlati