Sembra che dovrebbe essere una domanda ovvia, ma i tutorial e la documentazione sugli elenchi non sono disponibili. Molti di questi problemi derivano dalla dimensione dei miei file di testo (centinaia di MB) e dai miei tentativi di ridurli a qualcosa gestibile dal mio sistema. Di conseguenza, sto facendo il mio lavoro in segmenti e ora sto cercando di combinare i risultati.Combinazione di elenchi di dati di frequenza parola
Ho più elenchi di frequenze di parola (~ 40 di esse). Le liste possono essere acquisite tramite Import [] o come variabili generate in Mathematica. Ogni lista appare come il seguente ed è stato generato utilizzando il Tally [] and Sort [] comandi:
{{ "il", 42216}, { "di", 24903}, { "e", 18624 }, {"n", 16850}, {"in",
16164}, {"de", 14930}, {"a", 14660}, {"a", 14175}, {"la", 7347 }, {"era", 6030}, {"l", 5981}, {"le", 5735}, < < 51293 >>, {"mattatoio", 1}, {"abattement", 1}, {"abattagen", 1}, {"abattage", 1}, {"abated", 1}, {"abandonn", 1}, {"abaiss", 1}, {"aback", 1}, {"aase", 1}, {"aaijaut", 1}, {"aaaah", 1}, {"aaa", 1}}
Ecco un esempio del secondo file:
{{ "il", 30419}, { "n", 20414}, { "de", 19956}, { "di", 16262} , {"e",
14488}, {"a", 12726}, {"a", 12635}, {"in", 11141}, {"la", 10739}, {"et", 9016 }, {"les", 8675}, {"le", 7748}, < 101032 >>, {"abattement", 1}, {"abattagen", 1}, {"abattage", 1}, { "abated", 1}, {"abandonn", 1}, {"abaiss", 1}, {"aback", 1}, {"aase", 1}, {"aaijaut", 1}, { "aaaah", 1}, {"aaa", 1}}
Voglio combinarli in modo che i dati di frequenza vengano aggregati: cioè se il secondo file ha 30.419 occorrenze di "the" ed è unito al primo file, dovrebbe restituire che ci sono 72.635 occorrenze (e così via mentre mi muovo attraverso l'intera collezione).
Una domanda strettamente correlata: http://stackoverflow.com/questions/5143575/aggregating-tally-counters –
Anche in qualche modo correlato: http://stackoverflow.com/questions/7749633/time-efficient-partial-inverted -index-building/ –