2013-07-02 29 views
9

Uso dei dump di Wikipedia Voglio costruire una gerarchia per le sue categorie. Ho scaricato il dump principale (enwiki-latest-pages-articles) e la categoria SQL dump (enwiki-latest-category). Ma non riesco a trovare le informazioni sulla gerarchia.Gerarchia delle categorie di Wikipedia dalle discariche

Ad esempio, il dump delle categorie SQL contiene voci per ogni categoria ma non riesco a trovare nulla su come si relazionano tra loro.

L'altro dump (ultime pagine-articoli) indica le categorie padre per ogni pagina ma in modo non ordinato. Si afferma solo tutti i genitori.

Ho visto la gerarchia di categorie di wikiprep (http://www.cs.technion.ac.il/~gabr/resources/code/wikiprep/) ... Come si costruisce quello? Wikiprep elenca l'ID della categoria, non il suo nome. C'è un modo per ottenere il nome per ogni ID?

risposta

10

Le informazioni sulla gerarchia delle categorie in MediaWiki sono memorizzate nello categorylinks table, quindi è necessario il dump dello categorylinks.

Avrai anche bisogno del dump page (non pages-articles) per l'id della pagina per la mappatura del titolo.

+0

Grazie! Lo stavo cercando tutta la notte! Quando hai detto "pagina" intendi questo enwiki-latest-page.sql.gz? (http://dumps.wikimedia.org/enwiki/latest/) – fersarr

+1

@fersarr Sì, è quello. – svick

+0

scusa per aver infastidito di nuovo questo tema, ci sto lavorando, ma non ho ottenuto quello che mi aspettavo come risultato. È corretto: Da categoryLinks ottengo il pageId e le sue categorie. Alcune pagine saranno anche categorie, quindi la connessione di tutti i collegamenti dovrebbe comportare una gerarchia di categorie? – fersarr