2010-02-24 5 views
6

sto effettivamente cercando di risolvere lo stesso problema di questa domanda:ricerca di un database di n-grammi presi da wikipedia

Finding related words (specifically physical objects) to a specific word

meno il requisito che le parole rappresentano oggetti fisici. Le risposte e le domande modificate sembrano indicare che un buon inizio sta creando un elenco di frequenze di n-gram usando il testo di wikipedia come corpus. Prima di iniziare a scaricare il mastodontico dump di wikipedia, qualcuno sa se questo elenco esiste già?

PS se la locandina originale della domanda precedente vede questo, mi piacerebbe sapere come si è andato di risolvere il problema, in quanto i risultati sembrano eccellente :-)

risposta

1

Google as a publicly available database di terabyte n-garam (fino a 5).
È possibile ordinare in 6 DVD o trovare un torrent che lo ospita.

+0

Sì, ho considerato quell'insieme di dati, ancora più terrificante dei dump di Wikipedia! – mojones

+3

Non è disponibile per l'uso commerciale – Joel

+0

Qualcuno ha trovato un torrente di esso? – placeybordeaux