Sto cercando di ottenere informazioni su un gran numero di articoli accademici come parte del mio studio di ricerca. Il numero di articoli è dell'ordine di migliaia. Poiché Google Scholar non ha un'API, sto provando a grattare/eseguire ricerche su studiosi. Ora, ora, questo è tecnicamente contrario all'EULA, ma sto cercando di essere molto gentile e ragionevole in merito. Comprendo che Google non consente ai bot di mantenere il traffico entro limiti ragionevoli. Ho iniziato con un batch di prova di ~ 500.000 richieste con 1 s tra ogni richiesta. Sono stato bloccato dopo circa le prime 100 richieste. Ho provato diverse altre strategie tra cui:Scansione di Google Scholar
- L'estensione delle pause a ~ 20s e l'aggiunta di un po 'di rumore casuale a loro
- Rendere le pause log-normalmente distribuito (in modo che la maggior parte le pause sono nell'ordine di secondi, ma ogni tanto e poi ci sono pause più lunghe di diversi minuti e più)
- Facendo lunghe pause (diverse ore) tra i blocchi di richieste (~ 100).
Dubito che a questo punto la mia sceneggiatura stia aggiungendo un notevole traffico su ciò che qualsiasi umano vorrebbe. Ma in un modo o nell'altro mi vengono sempre bloccati dopo ~ 100-200 richieste. Qualcuno sa di una buona strategia per superare questo (non mi interessa se ci vogliono settimane, purché sia automatizzato). Inoltre, qualcuno ha esperienza direttamente con Google direttamente e chiede il permesso di fare qualcosa di simile (per la ricerca, ecc.)? Vale la pena provare a scriverli e spiegare cosa sto cercando di fare e come, e vedere se posso ottenere il permesso per il mio progetto? E come andrei a contattarli? Grazie!
Come si accumula la ricerca accademica di microsoft su google? –
[questo aggiunge alla discussione] (https://www.quora.com/Why-doesnt-Google-have-an-official-API-for-Google-Scholar) –
Spero che tu abbia impostato il tuo 'Utente- Agent' nelle intestazioni della richiesta correttamente - una richiesta che non lo imposta correttamente viene facilmente rilevata come un bot. :) –