Ho grandi quantità di dati (alcuni terabyte) e accumuli ... Sono contenuti in molti file di testo piatto delimitati da tabulazioni (ciascuno di circa 30 MB). La maggior parte del lavoro consiste nella lettura dei dati e nell'aggregazione (sommatoria/mediazione + trasformazioni aggiuntive) su osservazioni/righe in base a una serie di istruzioni sui predicati e quindi salvataggio dell'output come testo, file HDF5 o SQLite, ecc. Normalmente utilizzo R per tali compiti, ma temo che questo potrebbe essere un po 'grande. Alcune soluzioni candidate devonograndi quantità di dati in molti file di testo - come elaborare?
- scrivere il tutto in C (o Fortran)
- importare i file (tabelle) in un database relazionale direttamente e poi tirare fuori pezzi di R o Python (alcuni delle trasformazioni non sono suscettibili per le soluzioni SQL puro)
- scrivere il tutto in Python
Would (3) essere una cattiva idea? So che puoi racchiudere le routine C in Python ma in questo caso poiché non c'è nulla di computazionalmente proibitivo (ad es., Routine di ottimizzazione che richiedono molti calcoli iterativi), penso che l'I/O possa essere un collo di bottiglia tanto quanto il calcolo stesso. Avete delle raccomandazioni su ulteriori considerazioni o suggerimenti? Grazie
Modifica Grazie per le vostre risposte. Sembra che ci siano opinioni contrastanti su Hadoop, ma in ogni caso non ho accesso a un cluster (anche se posso usare diverse macchine non collegate) ...
Ottima domanda, sembra lo stesso problema che sto riscontrando con i dati di sequenza biologica. – Stedy