sto effettivamente cercando di risolvere lo stesso problema di questa domanda:ricerca di un database di n-grammi presi da wikipedia
Finding related words (specifically physical objects) to a specific word
meno il requisito che le parole rappresentano oggetti fisici. Le risposte e le domande modificate sembrano indicare che un buon inizio sta creando un elenco di frequenze di n-gram usando il testo di wikipedia come corpus. Prima di iniziare a scaricare il mastodontico dump di wikipedia, qualcuno sa se questo elenco esiste già?
PS se la locandina originale della domanda precedente vede questo, mi piacerebbe sapere come si è andato di risolvere il problema, in quanto i risultati sembrano eccellente :-)
Sì, ho considerato quell'insieme di dati, ancora più terrificante dei dump di Wikipedia! – mojones
Non è disponibile per l'uso commerciale – Joel
Qualcuno ha trovato un torrente di esso? – placeybordeaux