13

Qualcuno è a conoscenza di un modo per scaricare in modo programmato le immagini da Wikimedia Commons senza registrarsi per un account Bot? Sembra che l'unico modo per ottenere l'approvazione per un account Bot sia se aggiunge o modifica informazioni già su Wikimedia. Se si tenta di scaricare qualsiasi immagine, senza un account bot, utilizzando alcune delle librerie di API là fuori si ottengono messaggi di errore al posto delle immagini. Sembra che blocchino chiunque non entri da un browser? Qualcun altro ha qualche esperienza con questo? Mi sto perdendo qualcosa qui?Download di immagini da Wikimedia Commons

risposta

3

Prova a spiegare esattamente cosa vuoi fare? E cosa hai provato? Che messaggio di errore hai ricevuto? Non sei molto chiaro ...

Che librerie hai provato? Se non sei aggressivo, non ci sono restrizioni nel download del contenuto WM. Non ho mai sentito di alcuna restrizione. Alcuni agenti utente sono vietati dal montaggio per evitare stupidi spamming, ma in realtà non ho mai sentito parlare di restrizioni di download.

Se stai cercando di racimolare una grande quantità di immagini, scaricandole tramite Commons, stai sbagliando (tm). Se stai cercando di ottenere poche immagini, ovunque tra 10 e 200, dovresti essere in grado di scrivere uno strumento decente in poche righe di codice, purché tu rispetti il ​​requisito di limitazione: quando l'API ti dice di rallentare, se non lo fai, è probabile che gli amministratori di sistema ti buttino fuori.

Se è necessario un dump dell'immagine completo, (stiamo parlando di alcuni TB), provare a chiedere su wikitech-l. Avevamo i torrent disponibili quando c'erano meno immagini, ora è più complicato, ma sempre doable.

Informazioni sugli account bot. Quanto hai guardato nel sistema? È necessario un account bot per modifiche veloci e senza supervisione. I privilegi di Bot aprono anche alcuni servizi come l'aumento delle dimensioni delle query. Ma ricorda: account bot? è semplicemente un account utente aumentato. Hai provato a eseguire qualsiasi cosa con un account classico?

+1

Grazie, questo è utile. Ho un sito sulle piante e vorrei includere alcune foto da WikiMedia Commons. Ho eseguito una query su http://toolserver.org/~daniel/WikiSense/CategoryIntersect.php per ottenere un elenco di immagini in particolare categoria e poi ha eseguito un'altra query su http://toolserver.org/~magnus/commonsapi.php per ottenere i metadati su ciascuna immagine. Ho quindi usato urllib.urlretrieve nello script python per ottenere l'immagine reale. Ho appena provato di nuovo e funziona, così fa wget. Hmmm, potrei aver avuto problemi con la formazione dell'URL. – tomvon

+0

Non sto cercando una discarica completa, solo qualche foto. Mi piacerebbe anche creare un plugin per Wordpress che ti permetta di cercare WC e aggiungere immagini più facilmente al tuo sito (con una corretta attribuzione). Sai dove sono le informazioni sui limiti di regolazione? Ho fatto una lettura piuttosto approfondita al WC ma non ricordo di aver visto nulla sui limiti. Voglio certamente rispettare le Condizioni d'uso. – tomvon

+0

Vedere http://www.mediawiki.org/wiki/Manual:Maxlag_parameter per la limitazione. Si noti che è una raccomandazione, quindi se non si è mai visto un errore "maxlag" o codici di errore bloccati/bloccati/bloccati, probabilmente non si è mai stati limitati o bloccati. – NicDumZ

1

Nota che c'era un problema con l'utilizzo di LWP: non è ideale, è pratico, gli agenti possono creare un carico enorme su server già estesi. Esistono strategie sensate che gli utenti degli agenti possono seguire per ridurre il carico: chiedi su www.mediawiki.org o it: Village pump - Technical