Se voglio consentire solo ai crawler di accedere a index.php, funzionerà?Come consentire ai crawler di accedere solo a index.php, usando robots.txt?
User-agent: *
Disallow:/
Allow: /index.php
Se voglio consentire solo ai crawler di accedere a index.php, funzionerà?Come consentire ai crawler di accedere solo a index.php, usando robots.txt?
User-agent: *
Disallow:/
Allow: /index.php
È possibile utilizzare il Google Robots tool per il checkout. Non metterei mai nessuna directory segreta nel file dei robot, perché indovinerei che una riga come quella di seguito sarebbe come un tesoro per certi ragni.
Disallow: /secret
Provate a scambiare l'ordine di Disallow/Consenti:
User-agent: *
Allow: /index.php
Disallow:/
Vedi queste informazioni da wikipedia:
"Eppure, in modo da essere compatibile con tutti i robot, se si desidera consentire l'uso di singoli file all'interno di una directory non consentita, è necessario inserire prima le direttive , seguito dallo Disallow, ad esempio:"
http://en.wikipedia.org/wiki/Robots.txt
Ancora non vorrei si aspettano di lavorare troppo costantemente
Sì, funzionerà. Ecco il risultato del test dello Google Webmaster Tool.
Url
http://www.example.org/index.php
Googlebot
Allowed by line 3: Allow: /index.php
Googlebot-Mobile
Allowed by line 3: Allow: /index.php
Tuttavia, ricorda che con questa configurazione la tua home page sito non verrà strisciato meno che la pagina si accede con il percorso completo qualificato. In altre parole, http://www.example.org/
è vietato mentre è consentito http://www.example.org/index.php
.
Se vuoi che la tua home page sia accessibile, ecco una versione migliore del tuo file.
User-agent: *
Disallow:/
Allow: /index.php
Allow: /$
Puoi spiegare perché/$ funziona, o cosa fa? –
Spiegazione per '/ $' può essere trovato [qui] (http://stackoverflow.com/a/29475539/1973409) –
User-agent: *
Allow: /index.php
Disallow:/
User-agent: *
Allow: /$
Allow: /index.php
Allow: /sitemap.xml
Allow: /robots.txt
Disallow:/
Sitemap: http://www.your-site-name.com/sitemap.xml
Potresti spiegare la tua risposta un po '? – Qix
Sono curioso di sapere perché si vuole fare questo ... non si vuole crawler di indicizzare molto di più del tuo sito? –