2009-09-30 18 views
10

È possibile mettere a punto le direttive su Google in modo tale da ignorare parte di una pagina, pur continuando a indicizzare il resto?C'è un modo per impedire a Googlebot di indicizzare determinate parti di una pagina?

Ci sono un paio di questioni diverse che abbiamo incontrato che sarebbe aiutato da questo, come ad esempio:

  • Feed RSS/news ticker-tipo di testo su un contenuto di visualizzazione di pagina da un sito esterno
  • utenti che entrano dettagli di telefono di contatto ecc che vogliono visibili sul sito, ma sarebbe piuttosto non essere in grado di google-

sono consapevole che sia di quanto sopra può essere indirizzato tramite altre tecniche (come la scrittura il contenuto con JavaScript), ma mi sto chiedendo se qualcuno sa se esiste già un'opzione più pulita da Google?

Ho fatto qualche ricerca su questo e ho trovato menzioni di googleon and googleoff tags, ma queste sembrano essere esclusive per Google Search Appliance.

Qualcuno sa se esiste un insieme simile di tag a cui Googlebot aderirà?

Edit: Giusto per chiarire, io non voglio andare giù per la strada pericolosa di occultamento/fornire un documento diverso da Google, che è per questo che sto cercando di vedere se c'è un modo "legittimo" della realizzare ciò che mi piacerebbe fare qui.

risposta

9

Quello che stai chiedendo, non può davvero essere fatto, Google prende l'intera pagina, o nessuna di esso.

Si potrebbero fare alcuni trucchi subdoli però come inserire la parte della pagina che non si desidera indicizzare in un iFrame e utilizzare robots.txt per chiedere a Google di non indicizzare quell'iframe.

1

In breve NO - a meno che non si utilizzi il cloaking è sconsigliato da Google.

-2

Ci sono meta-tag per i bot, e c'è anche il file robots.txt, con il quale è possibile limitare l'accesso a determinate directory.

+0

meta-tag e robots.txt sia consentire o limitare l'accesso a livello di file, io sono curioso di sapere se è possibile consentire una pagina da indicizzare, ma bloccare una certa parte di essa. – ConroyP

-2

Tutti i motori di ricerca o indicizzano o ignorano l'intera pagina. L'unico modo possibile per realizzare ciò che si vuole è quello di:

(a) hanno due diverse versioni della stessa pagina

(b) rilevare il browser utilizzato

(c) Se si tratta di un motore di ricerca , servi la seconda versione della tua pagina.

This link potrebbe rivelarsi utile.

+6

Questo è un buon modo per bandire il tuo sito da Google – Greg

+2

Indeed (http://www.google.com/support/webmasters/bin/answer.py?hl=it&answer=66355): "Fornire risultati diversi in base a user agent potrebbe far sì che il tuo sito sia percepito come ingannevole e rimosso dall'indice di Google. " – Anax

-1

Al server rileva il bot di ricerca tramite IP utilizzando PHP o ASP. Quindi inserisci gli indirizzi IP che rientrano in quell'elenco una versione della pagina che desideri indicizzare. Nella versione della pagina che usi per i motori di ricerca utilizza il tag link canonico per specificare al motore di ricerca la versione della pagina che non desideri venga indicizzata.

In questo modo la pagina con il contenuto che si desidera indicizzare verrà indicizzata per indirizzo solo mentre l'unico contenuto che si desidera indicizzare verrà indicizzato. Questo metodo non ti farà bloccare dai motori di ricerca ed è completamente sicuro.

+1

Come indicato in un commento separato, questo potrebbe causare la rimozione del sito da Google. – Phrogz

-1

Sì, sicuramente ci si può fermare a Google di indicizzare alcune parti il tuo sito web creando robot robots.txt personalizzati e scrivi le parti che non desideri indicizzare come wpadmins o un particolare post o pagina in modo da poterlo fare facilmente creando questo file robots.txt .prima di creare un controllo il nostro sito robots.txt per esempio www.yoursite.com/robots.txt.

0

Risorse utili trovate per l'utilizzo di determinati contenuti duplicati e per non consentire all'indice di indicizzare il motore di ricerca per tali contenuti.

<p>This is normal (X)HTML content that will be indexed by Google.</p> 

<!--googleoff: index--> 

<p>This (X)HTML content will NOT be indexed by Google.</p> 

<!--googleon: index>