Sto cercando di ottenere numeri di download accurati per alcuni file su un server web. Guardo gli interpreti e alcuni sono chiaramente bot o web crawler, ma molti per molti non ne sono sicuro, potrebbero essere o meno un web crawler e stanno causando molti download quindi è importante per me sapere.Esiste un elenco di web crawler conosciuti?
C'è un elenco di web crawler conosci con qualche documentazione come user agent, IP, comportamento, ecc.?
Non sono interessato a quelli ufficiali, come Google, Yahoo o Microsoft. Questi sono generalmente ben educati e autoindentati.
Il problema nel nostro caso è che abbiamo molti downloader validi che non eseguiranno JavaScript, come iTunes o qualsiasi altro podcatcher. – Pablo
Sfortunatamente sei davvero sfortunato per quanto riguarda il download estremamente accurato. L'alternativa migliore che posso raccomandare è la visualizzazione di tre numeri: download totali (nessun filtro), filtro per escludere i bot (filtro della lista nera) e filtro per includere il bene noto (filtro della lista bianca). Questo ti darà almeno qualcosa da guardare per le tendenze e la stima approssimativa del parco giochi. – jwanagel