2012-02-01 7 views
14

Voglio impedire ai motori di ricerca di eseguire la scansione di tutto il mio sito Web.Come impedire ai motori di ricerca di eseguire la scansione dell'intero sito Web?

Possiedo un'applicazione Web per i membri di un'azienda. Questo è ospitato su un server Web in modo che i dipendenti dell'azienda possano accedervi. Nessun altro (il pubblico) ne avrebbe bisogno o lo troverà utile.

Quindi voglio aggiungere un altro livello di sicurezza (In Theory) per cercare di impedire l'accesso non autorizzato rimuovendo totalmente l'accesso ad esso da parte di tutti i robot/crawler dei motori di ricerca. Avere Google indicizza il nostro sito per renderlo ricercabile è inutile dal punto di vista del business e aggiunge semplicemente un altro modo per un hacker di trovare il sito Web in primo luogo per tentare di hackerarlo.

So che nello robots.txt è possibile indicare ai motori di ricerca di non eseguire la scansione di determinate directory.

È possibile dire ai robot di non eseguire la scansione di tutto il sito senza dover elencare tutte le directory da non sottoporre a scansione?

Questo è fatto meglio con robots.txt o è meglio fatto da. Htaccess o altro?

+1

Il tuo sito web è raggiungibile con cappello nero hacker, anche se l'indice non i motori di ricerca tuo sito. Gli hacker di Black Hat non stanno facendo ricerche su Google per trovarti. Hanno le loro bot-net che strisciano sul web e ignorano 'robots.txt'. Inoltre, stai danneggiando Internet rendendo più difficile per i dipendenti trovare il tuo sito web tramite la ricerca di google. A Google non piace quando lo fai e non rendi più sicuro il tuo sito web. Inoltre Google ti aiuta portando clienti. È come TSA dove prendi la tua lama da 1 pollice da te, non stanno rendendo le cose più sicure e stanno infastidendo tutti. –

risposta

11

È gestito meglio con un file robots.txt, solo per i robot che rispettano il file.

Per bloccare l'intero sito aggiungere questo al robots.txt nella directory principale del tuo sito:

User-agent: * 
Disallow:/

per limitare l'accesso al tuo sito per tutti gli altri, .htaccess è meglio, ma si avrebbe bisogno di definire le regole di accesso per indirizzo IP, ad esempio.

Qui di seguito sono le .htaccess regole per limitare tutti tranne il vostro popolo dal tuo IP dell'azienda:

Order allow,deny 
# Enter your companies IP address here 
Allow from 255.1.1.1 
Deny from all 
+0

Grazie per questo, le informazioni di robots.txt sono davvero utili, mi piacerebbe solo consentire solo la gamma IP dell'azienda, ma l'app verrà utilizzata dai rappresentanti sulla strada in modo che i loro ip possano cambiare tutto il tempo, altrimenti lo farei certamente farlo. Grazie :-) –

+0

C'è modo di bloccare anche bot dannosi, ad esempio identificandoli come bot e non utenti e bloccandoli, in quanto non vi è alcun motivo per cui un essere umano debba accedere al sito web. –

+0

@IainSimpson Si potrebbe provare a negare 'bots' sulla base di userAgent, ma sarebbe facile da spoofing ed è molto probabile che i bot cattivi non si identifichino come bot per cominciare ... –

7

Utilizzando robots.txt per mantenere un sito di indici dei motori di ricerca ha one minor and little-known problem: se qualcuno mai link al tuo sito da qualsiasi pagina indicizzata da Google (che dovrebbe accadere per Google per trovare il tuo sito comunque, o meno), Google may still index the link e mostrarlo come parte dei risultati di ricerca, anche se non permetti loro di recuperare la pagina il link punta a .

Se questo potrebbe essere un problema per voi, la soluzione è quella di non uso robots.txt, ma invece di includere un meta tag robots con il valore noindex,nofollow su ogni pagina del tuo sito. Si può anche fare questo in un file utilizzando .htaccessmod_headers e l'header HTTP X-Robots-Tag:

Header set X-Robots-Tag noindex,nofollow 

Questa direttiva aggiungere l'intestazione X-Robots-Tag: noindex,nofollow ad ogni pagina si applica a, incluse le pagine non-HTML come immagini. Naturalmente, si può decidere di includere il corrispondente meta tag HTML anche, nel caso in cui (si tratta di un vecchio standard, e quindi presumibilmente più ampiamente supportato):

<meta name="robots" content="noindex,nofollow" /> 

Si noti che se si esegue questa operazione, Googlebot sarà ancora provare per eseguire la scansione di tutti i collegamenti trovati sul tuo sito, poiché è necessario recuperare la pagina prima di visualizzare l'intestazione/metatag. Certo, alcuni potrebbero considerare questa funzione invece di un bug, in quanto ti consente di esaminare i tuoi log di accesso per verificare se Google ha trovato dei collegamenti al tuo sito.

In ogni caso, qualunque cosa tu faccia, tieni presente che è difficile mantenere un sito segreto "segreto" molto a lungo. Con il passare del tempo, la probabilità che uno dei tuoi utenti perderà accidentalmente un link al sito si avvicina al 100% e, se c'è qualche motivo per ritenere che qualcuno sarebbe interessato a trovare il sito, dovresti presumere che lo faranno. Pertanto, assicurati di avere i controlli di accesso appropriati sul tuo sito, di tenere aggiornato il software e di eseguire controlli di sicurezza regolari su di esso.

+3

Questo è simile ad aumentare la sicurezza a vostra a casa mettendo un cartello sulle porte/finestre che dice: "Ladri, non guardare questa casa". Il ladro dice: "lol". –

+0

Non si tratta di "sicurezza", si tratta di risultati di ricerca sensibili. Ho scritto un Wiki in anticipo e non appena Google l'ha trovato, sono state indicizzate tutte le cronologie delle pagine, le differenze rispetto alle versioni precedenti e le pagine di "modifica", non i luoghi amici per gli utenti. La rimozione delle pagine "modifica" e "cronologia" dalla cronologia di Google non le rende più sicure, ma aiuta a mantenere tale posta indesiderata fuori da Google e aiuta gli utenti ad arrivare nel posto giusto. – Galax

0

Se la sicurezza è motivo di preoccupazione e il blocco degli indirizzi IP non è fattibile, è necessario verificare che gli utenti debbano autenticarsi in qualche modo per accedere al sito.

Ciò significherebbe che chiunque (google, bot, persona-inciampato-su-un-link) che non è autenticato, non sarebbe in grado di accedere alle tue pagine.

È possibile inserirlo nel proprio sito Web oppure utilizzare l'autenticazione di base HTTP.

https://www.httpwatch.com/httpgallery/authentication/