Esiste un elenco di web crawler conosciuti?

Sto cercando di ottenere numeri di download accurati per alcuni file su un server web. Guardo gli interpreti e alcuni sono chiaramente bot o web crawler, ma molti per molti non ne sono sicuro, potrebbero essere o meno un web crawler e stanno causando molti download quindi è importante per me sapere.Esiste un elenco di web crawler conosciuti?

C'è un elenco di web crawler conosci con qualche documentazione come user agent, IP, comportamento, ecc.?

Non sono interessato a quelli ufficiali, come Google, Yahoo o Microsoft. Questi sono generalmente ben educati e autoindentati.

fonte

2009-11-14 Pablo

Sto usando http://www.user-agents.org/ di solito come riferimento, spero che questo ti aiuti.

Puoi anche provare http://www.robotstxt.org/db.html o http://www.botsvsbrowsers.com.

fonte

2009-11-14 07:37:38

http://www.robotstxt.org/db.html è un buon punto di partenza. Hanno un feed raw automatico se ne hai bisogno anche tu. http://www.botsvsbrowsers.com/ è anche utile.

fonte

2009-11-14 07:36:31

Purtroppo abbiamo scoperto che l'attività del bot è troppo numerosa e varia per poterla filtrare accuratamente. Se si desidera un conteggio accurato del download, la soluzione migliore è richiedere a javascript di attivare il download. Fondamentalmente è l'unica cosa che filtrerà in modo affidabile i robot. È anche il motivo per cui tutti i motori di analisi del traffico del sito in questi giorni sono basati su javascript.

fonte

2009-11-14 07:45:04 jwanagel

Il problema nel nostro caso è che abbiamo molti downloader validi che non eseguiranno JavaScript, come iTunes o qualsiasi altro podcatcher. – Pablo

Sfortunatamente sei davvero sfortunato per quanto riguarda il download estremamente accurato. L'alternativa migliore che posso raccomandare è la visualizzazione di tre numeri: download totali (nessun filtro), filtro per escludere i bot (filtro della lista nera) e filtro per includere il bene noto (filtro della lista bianca). Questo ti darà almeno qualcosa da guardare per le tendenze e la stima approssimativa del parco giochi. – jwanagel

Sto mantenendo un elenco di pattern user-agent del crawler al numero https://github.com/monperrus/crawler-user-agents/.

È collaborativo, puoi contribuire ad esso con richieste pull.

fonte

2015-04-06 12:07:12

Esiste un elenco di web crawler conosciuti?

risposta

Problemi correlati