penso che avrete bisogno di uno:
- analizzare l'elenco già esistente di english words nel Wikizionario, che sono stati estratti da un dump del database.
- scaricare il dump del database (e non solo i titoli) ed estrarre i termini da soli.
Ho provato l'opzione a) solo perché l'opzione b) implicherebbe un download di diversi GB. È molto semplice, infatti includo un'implementazione JS veloce che puoi usare come base per creare il tuo script nella tua lingua preferita.
var baseURL="http://en.wiktionary.org/wiki/Index:English/"
var letters=['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']
for(i=0;i<letters.length;i++) {
var letter = letters[i];
console.log(letter);
$.get(baseURL+letter, function(response) {
$(response).find('ol li a').each(function (k,v) { console.log(v.text) })
})
}
EDIT ero molto curioso su questo argomento me, così ho scritto uno script python. Solo nel caso qualcuno lo trova utile:
from lxml.cssselect import CSSSelector
from lxml.html import fromstring
import urllib2
url = 'http://en.wiktionary.org/wiki/Index:English/'
letters = ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']
for l in letters:
req = urllib2.Request(url+l, headers={'User-Agent' : "Magic Browser"})
con = urllib2.urlopen(req)
response = con.read()
h = fromstring(response)
sel = CSSSelector("ol li a")
for x in sel(h):
print x.text.encode('utf-8')
mi piacerebbe incollare i risultati per pastebin me stesso, ma il limite di 500 KB non mi permette di
Nizza soluzione! Grazie! –