2009-11-14 6 views
13

Sto cercando di ottenere numeri di download accurati per alcuni file su un server web. Guardo gli interpreti e alcuni sono chiaramente bot o web crawler, ma molti per molti non ne sono sicuro, potrebbero essere o meno un web crawler e stanno causando molti download quindi è importante per me sapere.Esiste un elenco di web crawler conosciuti?

C'è un elenco di web crawler conosci con qualche documentazione come user agent, IP, comportamento, ecc.?

Non sono interessato a quelli ufficiali, come Google, Yahoo o Microsoft. Questi sono generalmente ben educati e autoindentati.

risposta

4

Purtroppo abbiamo scoperto che l'attività del bot è troppo numerosa e varia per poterla filtrare accuratamente. Se si desidera un conteggio accurato del download, la soluzione migliore è richiedere a javascript di attivare il download. Fondamentalmente è l'unica cosa che filtrerà in modo affidabile i robot. È anche il motivo per cui tutti i motori di analisi del traffico del sito in questi giorni sono basati su javascript.

+0

Il problema nel nostro caso è che abbiamo molti downloader validi che non eseguiranno JavaScript, come iTunes o qualsiasi altro podcatcher. – Pablo

+0

Sfortunatamente sei davvero sfortunato per quanto riguarda il download estremamente accurato. L'alternativa migliore che posso raccomandare è la visualizzazione di tre numeri: download totali (nessun filtro), filtro per escludere i bot (filtro della lista nera) e filtro per includere il bene noto (filtro della lista bianca). Questo ti darà almeno qualcosa da guardare per le tendenze e la stima approssimativa del parco giochi. – jwanagel